请教一下python爬虫的编码问题解决“思路”

友人A

83714

发布于
2019-10-09

如果爬虫的response.text遇到乱码问题，应该用什么思路去找到正确的编码来解决问题呢？
请大佬指教

网页爬虫 python爬虫

python requests

阅读 3.9k

6 个回答

得票最新

友人A

83714

发布于
2019-10-11

✓ 已被采纳

有个奇葩的思路我发现，做爬虫的时候大家都喜欢把request.headers照搬下来，我发现我照搬下来就会乱码，我我只留个user-agent和cookie反而不乱码了

Nelosn_Wu

1214

发布于
2019-11-17

我一般写爬虫的时候不会去特意指定编码，因为它网页的编码声明跟它实际网页的编码是不一致的。这就很头疼了。
为了应对这个问题，response对象有个属性可以根据网页中大部分编码分析出网站的编码方式，就可以获得网页的编码了。

import requests

def get_html(url):
    try:
        r = requests.get(url)
        r.encoding = r.apparent_encoding
        return t.text
    except Exception as e:
        print(e)
        return None

nè__

5817

发布于
2019-10-09

更新于
2019-10-09

试试这个

pip install chardet

prolifes

11.2k51537

发布于
2019-10-09

r = requests.get(url)
r.encoding = 'utf-8'
print r.text

yunyuyuan

421021

发布于
2019-10-11

找html的head，大部分网站的head都有编码

追风的骚年007

发布于
2019-11-26

新手上路，请多包涵

解码的时候使用response.text大概率会出问题，试一下用response.content。

response.encoding = response.apparent_encoding

也是个不错的选择

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

请教一下python爬虫的编码问题解决“思路”

试试这个

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

浏览器能请求到数据怎么换了api工具或是爬虫都没数据了呢？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？