首先网页源码(HTML)是这样的:
阅读<span id="r_6f72ff900102xqgi" class="SG_txtb"></span>
网页打开的时候显示的内容为 “阅读251”,那就说明阅读两个字后面的SPAN是阅读数量的数字。
我用的PyQuery库来GET网页内容,代码如下:
from pyquery import PyQuery as pq
d = pq(url='http://blog.sina.com.cn/s/blog_6f72ff900102xqgi.html')
print(d('span').filter('#r_6f72ff900102xqgi') )
然而打印出来的并不是数字,而是SPAN的HTML:
<span id="r_6f72ff900102xqgi" class="SG_txtb"></span>
第一次用PYTHON,请有经验的朋友指点一下,谢谢~ !
获取文本内容使用.text或者.text()