我们想做电子商务垂直行业分析,想爬取淘宝的商品信息。淘宝的商品信息使用了很多ajax技术,尤其是评论部分;请问有什么好的方案么?
淘宝提供了一套丰富的API的,不必写爬虫去翻。 http://open.taobao.com/doc/category_list.htm?id=102
查看商品评价的方法:取得了商品的 num_iid 后,调用 taobao.traderates.get 这个API
爬过,评论详情是ajax的,比较难获取,商品信息还是可以的。 这是我写的简单的爬虫(http://pfffinc.diandian.com/post/2013-01-14/40047366704)
最长用的方法是搜索关键字,
通过关键字的信息返回商品ID,
在通过商品ID来搜索商品。
[http://open.taobao.com/doc/api_cat_detail.htm?spm=0.0.0.0.niihQi&cat_id=38&category_id=102]
有两种方案
目前我司用的是第二种方法,已经抓取了亿级别的淘宝商品