最近在尝试对某宝关键字商品的数据进行抓取,查看了一下淘宝的商品搜索结果的源代码,发现了源代码中的商品信息跟网页展现出来的商品信息对比起来并不完整。
网页的部分呈现
源代码截图:
就view_sales这个月销量字段,在1996人的数据之后就没有发现接下来的商品数据了,也就是说在源代码中并没有将所有的商品的月销量显示,据观察最后三排的商品数据(不只月销量)都没有在源代码中找到,请问这种情况该如何处理。
最近在尝试对某宝关键字商品的数据进行抓取,查看了一下淘宝的商品搜索结果的源代码,发现了源代码中的商品信息跟网页展现出来的商品信息对比起来并不完整。
网页的部分呈现
源代码截图:
就view_sales这个月销量字段,在1996人的数据之后就没有发现接下来的商品数据了,也就是说在源代码中并没有将所有的商品的月销量显示,据观察最后三排的商品数据(不只月销量)都没有在源代码中找到,请问这种情况该如何处理。
因为淘宝首页前36条明文源代码里面 后面12条保存在ajax地址里面 把前面36条的set-cookie赋值给后12条ajax地址访问的cookie后 可以获得后面12条数据
然后就可以获得完整的48条数据
4 回答2.2k 阅读
3 回答2.1k 阅读
2 回答975 阅读✓ 已解决
4 回答934 阅读
2.6k 阅读
1 回答1.4k 阅读
2 回答813 阅读
不知道你是用什么技术做的爬虫,据我所知,TB的网页部分HTML是异步生成的,所以传统爬虫是爬不到的。需要一个JS解析引擎,解析成完整的页面。这里推荐
phantomjs
官网:http://phantomjs.org/