用scrapy写爬虫,发送请求后,服务器直接返回202,该怎么办呢?

我爬取的是中国裁判文书网,之前还是好好的,我发送请求,服务器返回200,然后我处理body中的数据

但是一个星期之前,突然所有的请求都返回202,然后response body里也是空的,完全拿不到数据,我在回调函数中阻塞等待while(response.status == 202)就sleep也没用,status并不会变化

该怎么办呢?

我使用了crwalera的ip代理服务,之前有段时间也是202,但是过了一天就好了,但这次已经持续了一个星期了,很奇怪

我觉得就是目标网站负载太大,所以采用异步的方式发送数据,但是我在scrapy里有怎么正确地收到他的数据呢?

阅读 12.9k
3 个回答

根据http协议来看202响应里面会包含譬如Location一类进度和实际信息消息的信息。把202响应打印出来看下。

估计有反爬虫的设备.你的爬虫带 js 执行能力吗

新手上路,请多包涵

前端js动态生成了Cookie,得带那个cookie访问,可以模拟浏览器采集,不过速度慢~

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题