使用requests库抓取页面的时候的编码问题

发布于
2013-11-22

更新于
2013-11-22

我在开始加了以下的代码

# -*- coding: utf-8 -*-

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

但是用

print requests.Session().get(url, data=data).text

结果中输出了长这个样子的乱码
°æÈ¨ËùÓÐ 2013 ¶«ÄÏ´óÑ§ÍøÂçÓëÐÅÏ¢ÖÐÐÄ

然后试着查看了一下上面文本的格式

print type(requests.Session().get(url, data=data).text)

输出的结果就是unicode，后来我又看了页面的head头中写了页面编码是gb2312，我后面又把代码改成了

print requests.Session().get(url, data=data).text.encode('gb2312')

结果就出现了下面的异常
UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 227-228: illegal multibyte sequence1

把代码改成

print requests.Session().get(url, data=data).text.encode('gb2312', 'ignore')

依然是乱码

真的是没辙了，希望各位大大指点一下

python django tornado flask webp

阅读 55.9k

4 个回答

✓ 已被采纳

首先，sys.setdefaultencoding is evil。

其次，不会用 Requests 就去看文档，不要乱来。

如果 Requests 检测不到正确的编码，那么你告诉它正确的是什么：
```
response.encoding = 'gbk'
print response.text
```
原始内容在 response.content 里，bytes，自己想怎么处理就怎么处理。
单个请求完全没必要用 Session。直接 requests.get(xxx) 就可以了。

最后，弄不明白怎么处理编码错误的字符串就仔细想想，或者用 Python 3.x，不要散弹枪编程。

以下是 Python 3。Python 2 在那个字符串前加个 u 告诉它是 unicode 也一样。

>>> '°æÈ¨ËùÓÐ 2013 ¶«ÄÏ´óÑ§ÍøÂçÓëÐÅÏ¢ÖÐÐÄ'.encode('latin1').decode('gbk')
'版权所有 2013 东南大学网络与信息中心'

好铁

223

发布于
2016-05-07

resp = requests.get(url)
print(resp.text.encode(resp.encoding).decode('utf-8'))

jemygraw

45041824

发布于
2013-11-22

更新于
2013-11-22

首先有一个问题，就是你用requests.Session().get(url,data=data)的方法获得的应该是bytes，你可以用type看一下，既然是bytes的话，那么这个bytes是你所看到的gb2312编码之后的bytes，所以这里你应该用的是decode解码，而不是encode编码。因为网页是gb2312编码的啊。所以试试decode，而不是encode。另外如果你想把得到的字符串存储到文件里面，那么还要注意文件的编码，因为windows默认是gbk编码，你在open的时候要指定文件编码。
另外你还可以参考这个问题。
http://segmentfault.com/q/1010000000340967

wuyouheng

发布于
2013-11-22

新手上路，请多包涵

首先先看下网站的charset是什么编码，比如是'utf-8'的，在open url的时候先encoding='utf-8',然后在print的时候，decode('utf-8'),或者跟楼上说的用python 3.0以上的版本对编码的问题简化了很多

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

使用requests库抓取页面的时候的编码问题

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

如何使用 python 代码实现迅雷磁力链接资源的下载？

如何实现一个深拷贝函数？

请问，FastAPI如何获取到前端上传的二进制文件并且返回？

浏览器能请求到数据怎么换了api工具或是爬虫都没数据了呢？

Python 成员变量在多个子类实例间共享，如何避免？