关于PYTHON抓取网页内容的问题

我想抓取这个网页http://blog.sina.com.cn/s/blo... 中文章末尾的阅读数量

阅读(332)┊ 评论 (0)┊ 收藏(0)

网页源码:

阅读<span id="r_6f72ff900102xqgi" class="SG_txtb"></span>

源码里没有值。

我用的pyquery这个库,代码如下:

url = 'http://blog.sina.com.cn/s/blog_6f72ff900102xqgi.html'

doc = pq(url=url, encoding='utf-8')

print(doc('#r_6f72ff900102xqgi') )

代码输出的结果:

<span id="r_6f72ff900102xqgi" class="SG_txtb"></span>

需要怎么做才能得到页面里的阅读量数字呢?

阅读 2.5k
3 个回答

应该是js获取的动态数据

请求类似如下地址:
http://comet.blog.sina.com.cn...

获取结果

requestId_57944281={"pv":773757,"av":362}

阅读数和这个av的值一样。

阅读量数字我以前看过一些视频,有可能是在返回的json中存放的,可以打开F12看一下有没有返回json数据。

首先得确认阅读数量是动态数据(异步发送请求获取,例如ajax)还是静态数据(同步加载渲染)

  • 如果是动态数据,可以尝试模拟发送请求来获取后端数据。F12,看下所有发送的请求和返回的数据
  • 如果是静态数据,html抓下来以后可以通过正则来匹配获取
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题