淘宝网页数据抓取的问题

最近在尝试对某宝关键字商品的数据进行抓取,查看了一下淘宝的商品搜索结果的源代码,发现了源代码中的商品信息跟网页展现出来的商品信息对比起来并不完整。

网页的部分呈现
clipboard.png

源代码截图:

clipboard.png

就view_sales这个月销量字段,在1996人的数据之后就没有发现接下来的商品数据了,也就是说在源代码中并没有将所有的商品的月销量显示,据观察最后三排的商品数据(不只月销量)都没有在源代码中找到,请问这种情况该如何处理。

阅读 5k
2 个回答

不知道你是用什么技术做的爬虫,据我所知,TB的网页部分HTML是异步生成的,所以传统爬虫是爬不到的。需要一个JS解析引擎,解析成完整的页面。这里推荐phantomjs

官网:http://phantomjs.org/

新手上路,请多包涵

因为淘宝首页前36条明文源代码里面 后面12条保存在ajax地址里面 把前面36条的set-cookie赋值给后12条ajax地址访问的cookie后 可以获得后面12条数据
然后就可以获得完整的48条数据

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题