python读取网页内容的问题

首先网页源码(HTML)是这样的:

阅读<span id="r_6f72ff900102xqgi" class="SG_txtb"></span>

网页打开的时候显示的内容为 “阅读251”,那就说明阅读两个字后面的SPAN是阅读数量的数字。

我用的PyQuery库来GET网页内容,代码如下:

from pyquery import PyQuery as pq
 
d = pq(url='http://blog.sina.com.cn/s/blog_6f72ff900102xqgi.html')
print(d('span').filter('#r_6f72ff900102xqgi') )

然而打印出来的并不是数字,而是SPAN的HTML:

<span id="r_6f72ff900102xqgi" class="SG_txtb"></span>

第一次用PYTHON,请有经验的朋友指点一下,谢谢~ !

阅读 1.5k
1 个回答

获取文本内容使用.text或者.text()

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题