python - 爬虫养成记 - urllib2的调试和错误处理 - helloword

urllib2的timeout

timeout参数用于设置超时。我们在爬取一些响应较慢的网站的时候，需要设置一个比较长的超时时间。

response = urllib2.urlopen(request, timeout=10)

上述代码设置timeout为10秒。

设置Debug

import urllib2

httpHandler = urllib2.HTTPHandler(debuglevel=1)
opener = urllib2.build_opener(httpHandler)
urllib2.install_opener(opener)

urllib2.urlopen("http://www.zhihu.com")

URLError和HTTPError处理

事实上，并不是所有urllib2发起的请求都能得到服务器的回应。
例如

网络无链接
连接不到服务器
链接不存在
请求的方法不对

等情况都会造成urllib2抛出错误。
urllib2提供了两个Exception用于处理响应的错误。

URLError
URLError是HttpError的父类。上面说到的handlers出错就会抛出URLError。
HTTPError
HTTPError是URLError的子类。用于处理Http相关的错误。

HTTPError除了reson属性外还有code属性。
code属性即http状态码。更多状态码可以阅读：http://www.cnblogs.com/shanyo...

下面我们来展示一下示例代码：

import urllib2

headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36"
}
request = urllib2.Request("http://blog.csdn.net/cqcre", headers = headers)

httpHandler = urllib2.HTTPHandler(debuglevel=1)
opener = urllib2.build_opener(httpHandler)
urllib2.install_opener(opener)

try:
    response = urllib2.urlopen(request)
    print response.getcode()
except urllib2.HTTPError, e:
    print e.code, e.reason
except urllib2.URLError, e:
    print e.reason

值得注意的是 HTTPError是URLError的子类，因此在捕获Exception的时候需要将子类放在前面避免Exception先被父类捕获。

爬虫养成记 - urllib2的调试和错误处理

urllib2的timeout

设置Debug

URLError和HTTPError处理

Char

引用和评论

Macos Catalina Beta导致 JetBrain 系列无法选择文件夹打开项目

python与nodejs哪个性能高

Anaconda安装教程以及Anaconda和pip配置国内镜像

如何减少跨团队交付摩擦？——基于 DevOps 与敏捷的最佳实践

Python 描述符

科学计算编程涉及到的技术栈简介

使用 chardet 判断文件编码需要注意的坑——过大的文件会导致高耗时