urllib2的timeout
timeout参数用于设置超时。我们在爬取一些响应较慢的网站的时候,需要设置一个比较长的超时时间。
response = urllib2.urlopen(request, timeout=10)
上述代码设置timeout
为10秒。
设置Debug
import urllib2
httpHandler = urllib2.HTTPHandler(debuglevel=1)
opener = urllib2.build_opener(httpHandler)
urllib2.install_opener(opener)
urllib2.urlopen("http://www.zhihu.com")
URLError和HTTPError处理
事实上,并不是所有urllib2发起的请求都能得到服务器的回应。
例如
网络无链接
连接不到服务器
链接不存在
请求的方法不对
等情况都会造成urllib2抛出错误。
urllib2提供了两个Exception用于处理响应的错误。
URLError
URLError是HttpError的父类。上面说到的handlers出错就会抛出URLError。HTTPError
HTTPError是URLError的子类。用于处理Http相关的错误。
HTTPError除了reson属性外还有code属性。
code属性即http状态码。更多状态码可以阅读:http://www.cnblogs.com/shanyo...
下面我们来展示一下示例代码:
import urllib2
headers = {
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36"
}
request = urllib2.Request("http://blog.csdn.net/cqcre", headers = headers)
httpHandler = urllib2.HTTPHandler(debuglevel=1)
opener = urllib2.build_opener(httpHandler)
urllib2.install_opener(opener)
try:
response = urllib2.urlopen(request)
print response.getcode()
except urllib2.HTTPError, e:
print e.code, e.reason
except urllib2.URLError, e:
print e.reason
值得注意的是 HTTPError是URLError的子类,因此在捕获Exception的时候需要将子类放在前面避免Exception先被父类捕获。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。