html分析
大家,我是一个网虫业余爱好者,全凭兴趣。目前碰到一个问题,即---从某一网站GET “html源码”,对其进行分析,先用HtmlElementCollection hc = htmldocument.GetElementsByTagName("a");
再使用html.GetAttribute("href").ToString();可以取出基中的"网址", 但要取中其中的汉字
却卡住了。
html源码的一部分如下
<a href="http://dajia.qq.com/blog/429276092112644" target="_blank" boss="{id:1220, sBiz:'dajia_web', name:'right_list_title', sBak1:'home', sBak2:'_no_login_'}"><span class="tj">推荐</span>阿西们涉过愤怒的河流</a>
html.GetAttribute("这里应该填什么才能取出------阿西们涉过愤怒的河流").ToString();
望指点一二为谢!
可以考虑用正则表达式匹配试试 a790926 发表于 2014-11-22 21:17
可以考虑用正则表达式匹配试试
正是不想用“正则”,太头痛了。 dyyyj 发表于 2014-11-23 09:39
正是不想用“正则”,太头痛了。
用Jquery 这里就不能用 GetAttribute了,
见如下代码参考:
html.InnerHTML();
这句可以取到a标签的内部html,即
<span class="tj">推荐</span>阿西们涉过愤怒的河流
然后再截取字符串,就可以获得你要的字符串了;
html.text方法直接获取文本。。。。也可以用string的方法 xiehun 发表于 2014-11-29 15:05
html.text方法直接获取文本。。。。也可以用string的方法
我上次看的回复到哪里去了?还有人删贴!? 太巩怖了! dyyyj 发表于 2014-11-30 08:56
我上次看的回复到哪里去了?还有人删贴!? 太巩怖了!
什么回复?应该不会乱删了,除非违规了 xiehun 发表于 2014-12-2 22:22
什么回复?应该不会乱删了,除非违规了
我上次的回复已经解决了这个问题。可是现在竟然找不着了。 可能是回复者不小心删了 还是正则吧,亲~
页:
[1]