python爬虫页面数据和网页源代码数据不一致?

网页链接是 http://yanbao.stock.hexun.com...

要爬取的是

clipboard.png

投票的比例,f12和页面的数据是一致的,

但是网页源代码和用requests的数据:

clipboard.png

为什么两者不同,具体的应该怎么解决,页面的数字应该是实时的,这种情况应该如何抓取投票比例的数据呢?求问

阅读 11.8k
3 个回答

你要的数据在这里

http://yanbao.stock.hexun.com/include/votejson.ashx?&hyname=%B7%BD%D5%FD%D6%A4%C8%AF&1501991672592&type=3

clipboard.png

因为页面有些DOM是在js执行之后渲染出来的,你要在右键-页面源码这里看,才是浏览器拿到的页面源码。

如果你要爬取的数据是js渲染得到的,那么有两种办法。一种是直接调用浏览器帮你执行js,拿到你希望拿到的数据。这个可以用selenium这个工具实现。

另一种是你自己模拟js的执行过程,用python代码实现这段算法,拿到数据

一楼已经给出了答案,当然,也可以找到那个js,里面有组装数据请求的过程,分析后也能得到结果

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题