Scrapy用代理抓数据，用什么方法可以将请求失败的url推入重试的队列里

用scrapy轮换代理抓百度，有小部分代理，请求正常的url后返回的是这个页面：http://www.baidu.com/search/error.html

找了下文档，貌似scrapy异常只能通过非正常状态码（404，500...）来捕获

我想判断如果返回的链接与请求的链接不一样，求将请求的链接传入重试队列里，换代理重抓一次，但目前没有找到可以实现的方法。

图片描述

spider.py

class DmozSpider(scrapy.Spider):
    name = "dmoz"
    allowed_domains = ["www.baidu.com"]

    # start_urls = ['http://www.baidu.com/s?q=&tn=baidulocal&ct=2097152&si=&ie=utf-8&cl=3&wd=%s' % urllib.quote('华为工资') ]

    start_urls = []
    for line in open('/Users/sunjian/Desktop/ceshi/jieguo1.csv'):
        line = line.strip()

        try:
            ugc = search(r'(\d+),company',line)
            company = search(r'company:(.*?),',line)
            id = search(r'id:(\d+)',line)
            word = 'www.kanzhun.com/gso%s.html' % id

        except:
            print 'error'

        url = 'http://www.baidu.com/s?q=&ct=2097152&si=&ie=utf-8&cl=3&wd=%s&class=%s-%s' % (word,ugc,id )
        start_urls.append(url)

    def __get_url_query(self, url):
        m =  re.search("wd=(.*?)&", url).group(1)
        return m

    def __get_url_class(self, url):
        m =  re.search("class=(.*)", url).group(1)
        return m

    def parse(self,response):
        query = urllib.unquote(self.__get_url_query(response.url))
        CLASS = urllib.unquote(self.__get_url_class(response.url))

        print response.url

setting.py的中间件设置：

RETRY_HTTP_CODES = [500, 503, 504, 400, 403, 404, 408]
RETRY_TIMES = 10

'''下载中间件设置'''
DOWNLOADER_MIDDLEWARES = {
    'scrapy.contrib.downloadermiddleware.retry.RetryMiddleware': 80,
    'ceshi.middlewares.ProxyMiddleware': 90,
    'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 110,
    
}

阅读 14.9k

Scrapy用代理抓数据，用什么方法可以将请求失败的url推入重试的队列里

你尚未登录，登录后可以

Qt中布局是否只有5种呢？

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

这段代码为什么不能获取到数据？

请问一下，如何理解reduce函数呢？

如何使用Python+Selenium爬取Goodreads上万条书评而不崩溃？

如何使用 python 代码实现迅雷磁力链接资源的下载？

在PyCharm开发不同python项目，如果每个项目使用自己的venv环境，是不是每次切换项目都需要修改python interpreter？