pyspider根本处理不了天猫国际

提供同样的header访问,使用requests就可以很简单的把页面下载下来,但是pyspider就不行,哪怕是开了fetch_type="js"也不可以,会报错(URL>1024)。
虽然我明白哪怕开了,其实最后结果还是爬不下来的。因为phantomjs现在一点也靠不住。哪怕三分钟restart一次,该fetch_error还是fetch_error。
有点难过。
这个工具给我的使用感觉,爬取效率高,规则设定方便,灵活多变。但是可能更适合爬取静态的新闻页面。
根本没法打架。
阅读 3.8k
1 个回答

url > 1024 这个问题怎么说呢,确实有点保守了,我已经把源代码hack 了,所以不存在这个问题,一般浏览器都是支持到2048长度

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进