scrapy爬虫在第二层的时候爬不全?

scrapy写的爬虫需要爬两层
1、开始页是一个列表页,有100页,用for循环生成网址;
2、每个列表页有10个项,每个项有一个通向详情页的url,用parse类循环获取每页的这10个url,将url提交到爬取详情的parse_item类;
3、parse_item类进行爬取每个详情页。

问题:
显示如下信息

2015-10-08 22:24:53 [scrapy] INFO: Crawled 172 pages (at 172 pages/min), scraped 107 items (at 107 items/min)
2015-10-08 22:25:53 [scrapy] INFO: Crawled 172 pages (at 0 pages/min), scraped 107 items (at 0 items/min)
2015-10-08 22:26:53 [scrapy] INFO: Crawled 172 pages (at 0 pages/min), scraped 107 items (at 0 items/min)
一直都这样....

也就是详情页抓不全,不知道问题出在哪里。
补充:我有用redis,不知跟redis需要进行什么设置有无关系。

阅读 4.7k
2 个回答

使用 scrapy 的 log 功能。

可能是对ip的限制,使用ip池

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进