使用urllib2.Request(url,None,headers)
打开页面,读取返回页面的内容是页面未找到的页面,由于url中包含有中文字符,我使用控制台打印url出来是正常的,但是我想urllib2在打开这个url时可能字符并没有正确处理,不然抓取的页面也不会显示未找到了吧,使用浏览器打开url能够正常访问,并且其他页面也能正常抓取,应该不是被封的问题,不知道这种情况该怎么办呢?
使用urllib2.Request(url,None,headers)
打开页面,读取返回页面的内容是页面未找到的页面,由于url中包含有中文字符,我使用控制台打印url出来是正常的,但是我想urllib2在打开这个url时可能字符并没有正确处理,不然抓取的页面也不会显示未找到了吧,使用浏览器打开url能够正常访问,并且其他页面也能正常抓取,应该不是被封的问题,不知道这种情况该怎么办呢?
打开fiddler(win),或者charles(osx)看下你发出的请求从raw格式下和浏览器发出的有什么差别.
一般几种可能导致失败的原因.
cookie不对
header不对
content length 写死了
4 回答4.5k 阅读✓ 已解决
1 回答3.4k 阅读✓ 已解决
4 回答3.9k 阅读✓ 已解决
3 回答2.2k 阅读✓ 已解决
1 回答4.5k 阅读✓ 已解决
2 回答500 阅读✓ 已解决
1 回答4k 阅读✓ 已解决