我想抓取这个网页http://blog.sina.com.cn/s/blo... 中文章末尾的阅读数量
阅读(332)┊ 评论 (0)┊ 收藏(0)
网页源码:
阅读<span id="r_6f72ff900102xqgi" class="SG_txtb"></span>
源码里没有值。
我用的pyquery这个库,代码如下:
url = 'http://blog.sina.com.cn/s/blog_6f72ff900102xqgi.html'
doc = pq(url=url, encoding='utf-8')
print(doc('#r_6f72ff900102xqgi') )
代码输出的结果:
<span id="r_6f72ff900102xqgi" class="SG_txtb"></span>
需要怎么做才能得到页面里的阅读量数字呢?
应该是js获取的动态数据
请求类似如下地址:
http://comet.blog.sina.com.cn...
获取结果
requestId_57944281={"pv":773757,"av":362}
阅读数和这个av的值一样。