pyspider根本处理不了天猫国际

Question

pyspider根本处理不了天猫国际

发布于
2018-07-09

提供同样的header访问，使用requests就可以很简单的把页面下载下来，但是pyspider就不行，哪怕是开了fetch_type="js"也不可以，会报错（URL>1024）。
虽然我明白哪怕开了，其实最后结果还是爬不下来的。因为phantomjs现在一点也靠不住。哪怕三分钟restart一次，该fetch_error还是fetch_error。
有点难过。
这个工具给我的使用感觉，爬取效率高，规则设定方便，灵活多变。但是可能更适合爬取静态的新闻页面。
根本没法打架。

pyspider

阅读 3.8k

1 个回答

Laoyuan

url > 1024 这个问题怎么说呢，确实有点保守了，我已经把源代码hack 了，所以不存在这个问题，一般浏览器都是支持到2048长度

撰写回答