爬虫养成记 - urllib2的调试和错误处理

xcwong

urllib2的timeout

timeout参数用于设置超时。我们在爬取一些响应较慢的网站的时候,需要设置一个比较长的超时时间。

response = urllib2.urlopen(request, timeout=10)

上述代码设置timeout为10秒。

设置Debug

import urllib2

httpHandler = urllib2.HTTPHandler(debuglevel=1)
opener = urllib2.build_opener(httpHandler)
urllib2.install_opener(opener)

urllib2.urlopen("http://www.zhihu.com")

URLError和HTTPError处理

事实上,并不是所有urllib2发起的请求都能得到服务器的回应。
例如

  • 网络无链接

  • 连接不到服务器

  • 链接不存在

  • 请求的方法不对

等情况都会造成urllib2抛出错误。
urllib2提供了两个Exception用于处理响应的错误。

  • URLError
    URLError是HttpError的父类。上面说到的handlers出错就会抛出URLError。

  • HTTPError
    HTTPError是URLError的子类。用于处理Http相关的错误。

HTTPError除了reson属性外还有code属性。
code属性即http状态码。更多状态码可以阅读:http://www.cnblogs.com/shanyo...

下面我们来展示一下示例代码:

import urllib2

headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36"
}
request = urllib2.Request("http://blog.csdn.net/cqcre", headers = headers)

httpHandler = urllib2.HTTPHandler(debuglevel=1)
opener = urllib2.build_opener(httpHandler)
urllib2.install_opener(opener)

try:
    response = urllib2.urlopen(request)
    print response.getcode()
except urllib2.HTTPError, e:
    print e.code, e.reason
except urllib2.URLError, e:
    print e.reason

值得注意的是 HTTPError是URLError的子类,因此在捕获Exception的时候需要将子类放在前面避免Exception先被父类捕获。

阅读 2.2k

helloword
happy coding

hello world

502 声望
20 粉丝
0 条评论

hello world

502 声望
20 粉丝
宣传栏