scrapy抓取网页返回的是404页面会停止

新手上路，请多包涵

scrapy抓取网页返回的是404页面应该怎么做？

http://www.example.com/artiles/1
http://www.example.com/artiles/2
...
...
...
http://www.example.com/artile...
比如要抓取上面共20页的内容，些第2页面不存在，返回的是404页面，
然后scrapy就停止了### 问题描述

如何解决停止问题

阅读 3.5k

2 个回答

得票最新

✓ 已被采纳

你可以尝试使用 try 和expect 抛出异常，然后就可以跳过这个404的网址。

class MySpider(CrawlSpider):
    handle_httpstatus_list = [404]

这样你就能处理你的404请求，在你自己定义的Request的call_back函数中。

推荐问题

相似问题

找不到问题？创建新问题