python使用httplib库如何实现请求失败重试机制？

图片描述

RT，我写了一个爬虫，爬行的时候会偶尔报如图中的错误，请问这是不是网络问题？如果是的话我该怎么写这种失败重试机制？

（PS：我标题里面说使用httplib库是因为我这个爬虫必须带上指定的cookie才可以请求到数据，如果有其他办法可以带上cookie发起http请求的话也可以不用httplib库）

阅读 3.4k

谢天谢地我刚刚找到了解决方案

用python爬虫抓站的一些技巧总结 - Python - 伯乐在线http://python.jobbole.com/81997/ 原文在这里

def request(url, cookie='xxx', retries=5):
    ret = urlparse.urlparse(url)  # Parse input URL
    if ret.scheme == 'http':
        conn = httplib.HTTPConnection(ret.netloc)
    elif ret.scheme == 'https':
        conn = httplib.HTTPSConnection(ret.netloc)

    url = ret.path
    if ret.query: url += '?' + ret.query
    if ret.fragment: url += '#' + ret.fragment
    if not url: url = '/'

    try:
        conn.request(method='GET', url=url, headers={'Cookie': cookie})
        res = conn.getresponse()
    except Exception, e:
        print e.message
        if retries > 0:
            return request(url=url, retries= retries - 1)
        else:
            print 'GET Failed'
            return ''
    else:
        pass
    finally:
        pass

    if res.status != 200:
        return None
    return res.read()

原理是用一个retries变量存储重试次数，然后每次异常处理的时候就递归本身并且将重试次数-1，判断如果重试次数小于0就直接return并且打出失败日志

python使用httplib库如何实现请求失败重试机制？

你尚未登录，登录后可以

小网站有必要将图片放到阿里云OSS存储吗？

Spring中的两个疑惑?

c++模板类链表链接错误？

Qt中布局是否只有5种呢？

c++98环境循环单链表类的私有结构体与引用其的成员函数顺序问题？

这段代码为什么不能获取到数据？

头文件保护为什么报warring?

Microsoft