scrapy爬虫每次爬到一定数量的网页就不再爬了

Question

scrapy爬虫每次爬到一定数量的网页就不再爬了

发布于
2015-10-15

更新于
2015-10-15

用scrapy写的爬虫，总共有700个详情页需要爬，可是，总是爬到第443或444页的时候就不爬了，这是为什么？
信息显示如下：

2015-10-15 01:21:16 [scrapy] INFO: Crawled 1192 pages (at 110 pages/min), scraped 444 items (at 45 items/min)
2015-10-15 01:22:16 [scrapy] INFO: Crawled 1192 pages (at 0 pages/min), scraped 444 items (at 0 items/min)

说明：Crawled 1192 pages是包含另外的请求页，如进入详情页的列表页，还有ajax请求页。

scrapy

阅读 8k

1 个回答

得票最新

MyDawnGLL

59018117125

发布于
2015-12-13

会不会是针对单个ip有限制？
尽量模拟浏览器发送请求，加上headers,设置好download_delay。
建立代理ip池。

一起学习。

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

相似问题

找不到问题？创建新问题