dyyyj 发表于 2014-11-22 09:02:03

html分析

大家,我是一个网虫业余爱好者,全凭兴趣。
目前碰到一个问题,即---从某一网站GET   “html源码”,对其进行分析,先用HtmlElementCollection hc = htmldocument.GetElementsByTagName("a");
再使用html.GetAttribute("href").ToString();可以取出基中的"网址", 但要取中其中的汉字
却卡住了。

html源码的一部分如下
<a href="http://dajia.qq.com/blog/429276092112644" target="_blank" boss="{id:1220, sBiz:'dajia_web', name:'right_list_title', sBak1:'home', sBak2:'_no_login_'}"><span class="tj">推荐</span>阿西们涉过愤怒的河流</a>

html.GetAttribute("这里应该填什么才能取出------阿西们涉过愤怒的河流").ToString();
望指点一二为谢!

a790926 发表于 2014-11-22 21:17:57

可以考虑用正则表达式匹配试试

dyyyj 发表于 2014-11-23 09:39:40

a790926 发表于 2014-11-22 21:17
可以考虑用正则表达式匹配试试

正是不想用“正则”,太头痛了。

blake_cai 发表于 2014-11-24 11:54:28

dyyyj 发表于 2014-11-23 09:39
正是不想用“正则”,太头痛了。

用Jquery

diandian 发表于 2014-11-29 14:03:34

这里就不能用 GetAttribute了,
见如下代码参考:

html.InnerHTML();
这句可以取到a标签的内部html,即
<span class="tj">推荐</span>阿西们涉过愤怒的河流


然后再截取字符串,就可以获得你要的字符串了;

xiehun 发表于 2014-11-29 15:05:26

html.text方法直接获取文本。。。。也可以用string的方法

dyyyj 发表于 2014-11-30 08:56:24

xiehun 发表于 2014-11-29 15:05
html.text方法直接获取文本。。。。也可以用string的方法

我上次看的回复到哪里去了?还有人删贴!? 太巩怖了!

xiehun 发表于 2014-12-2 22:22:11

dyyyj 发表于 2014-11-30 08:56
我上次看的回复到哪里去了?还有人删贴!? 太巩怖了!

什么回复?应该不会乱删了,除非违规了

dyyyj 发表于 2014-12-3 14:49:02

xiehun 发表于 2014-12-2 22:22
什么回复?应该不会乱删了,除非违规了

我上次的回复已经解决了这个问题。可是现在竟然找不着了。

xiehun 发表于 2014-12-4 23:00:58

可能是回复者不小心删了

sea 发表于 2014-12-20 10:16:12

还是正则吧,亲~
页: [1]
查看完整版本: html分析