提供同样的header访问,使用requests就可以很简单的把页面下载下来,但是pyspider就不行,哪怕是开了fetch_type="js"也不可以,会报错(URL>1024)。
虽然我明白哪怕开了,其实最后结果还是爬不下来的。因为phantomjs现在一点也靠不住。哪怕三分钟restart一次,该fetch_error还是fetch_error。
有点难过。
这个工具给我的使用感觉,爬取效率高,规则设定方便,灵活多变。但是可能更适合爬取静态的新闻页面。
根本没法打架。
提供同样的header访问,使用requests就可以很简单的把页面下载下来,但是pyspider就不行,哪怕是开了fetch_type="js"也不可以,会报错(URL>1024)。
虽然我明白哪怕开了,其实最后结果还是爬不下来的。因为phantomjs现在一点也靠不住。哪怕三分钟restart一次,该fetch_error还是fetch_error。
有点难过。
这个工具给我的使用感觉,爬取效率高,规则设定方便,灵活多变。但是可能更适合爬取静态的新闻页面。
根本没法打架。
url > 1024 这个问题怎么说呢,确实有点保守了,我已经把源代码hack 了,所以不存在这个问题,一般浏览器都是支持到2048长度