最近做个小程序,需要采集淘宝搜索页的结果,因为API的效果不一样的,所以要采集。
但是弄了好久都没能采集下来。
有大神有空可以帮小弟试试吗?
万分感激。
链接样式: https://list.tmall.com/search_product.htm?q=%D1%A9%B7%C4%C9%C0&cli...
最近做个小程序,需要采集淘宝搜索页的结果,因为API的效果不一样的,所以要采集。
但是弄了好久都没能采集下来。
有大神有空可以帮小弟试试吗?
万分感激。
链接样式: https://list.tmall.com/search_product.htm?q=%D1%A9%B7%C4%C9%C0&cli...
由于该网站的robots.txt文件存在限制指令,系统无法提供该页面的内容描述
防君子不防小人的感觉。
模拟采集的话,curl应该没太大问题,注意频率或者换IP就好了。
很多东西(比如ajax加载的)后端的程序是无法直接采集的,即使调整程序,使用起来也比较费劲。
那么,你可以模拟浏览器去访问,只要浏览器能访问到的,你模拟的浏览器都能访问得到。
PhantomJS (casperjs 框架) 看看这个吧,能简单模拟浏览器访问,要抓的数据都能抓得到。
1 回答4k 阅读✓ 已解决
3 回答1.8k 阅读✓ 已解决
2 回答2.2k 阅读✓ 已解决
1 回答1.4k 阅读✓ 已解决
2 回答2.2k 阅读
1 回答578 阅读✓ 已解决
788 阅读
没用什么,完全模拟浏览器curl即可。可能用了cookies和user-agent什么的识别。

效果图:
若无效自行将cookies换成新的。