python 的 requests 字符编码乱码，添加 chardet 更加智能、精确的判断 response 的编码

seo 优化：

requests 判断 response 的字符编码
python 的 requests 是怎么判断 response 的字符编码的？
python 的 requests 字符编码乱码，添加 chardet 更加智能、精确的判断 response 的编码，避免乱码

下面我展示一下我的代码示例，把 response 的前 256 个字节喂给 chardet 用于判断字符编解码

为什么是 256 个字符？因为太少会判断不准，比如设置成 64 个字节的话，还挺不准的

但是也不要太长了，不然 CPU 要跑很久，非常性能和时间

具体的，各位可以自己平衡准确率和性能耗时

import requests
import chardet
from loguru import logger


def check_encoding(stream: bytes) -> str | None:
    encoding = chardet.detect(stream[:256]).get('encoding', None)
    return encoding


def download(url: str) -> str:
    response = requests.get(url, timeout=30)

    response.encoding = check_encoding(response.content) or 'utf-8'
    logger.debug(f'长度为 {len(response.text)} 字符, 编码为: {response.encoding}')
    return response.text

不过有一个缺点就是 chardet 不维护了

https://pypi.org/project/chardet/#history

图片.png

https://github.com/chardet/chardet

但是实际上，我用的是下面的版本

使用超集字符集做替换，来实现更好的鲁棒性：

gb18030 是 gbk 和 gb2312 的超集
判断出来是 ascii ，直接当做 utf-8 处理

def check_encoding(stream: bytes) -> str | None:
    encoding = chardet.detect(stream[:1024]).get('encoding', None)
    if not encoding:
        return None
    if encoding.lower() == 'gb2312' or encoding.lower() == 'gbk':
        return 'gb18030'
    if encoding.lower() == 'ascii':
        return 'utf-8'
    return encoding

python 的 requests 字符编码乱码，添加 chardet 更加智能、精确的判断 response 的编码

universe_king

引用和评论

避坑指南：升级到 rabbitmq3.13.7 后队列 State crashed

如何减少跨团队交付摩擦？——基于 DevOps 与敏捷的最佳实践

科学计算编程涉及到的技术栈简介

使用 chardet 判断文件编码需要注意的坑——过大的文件会导致高耗时

Python3 格式化时间（qbit）

本地使用PaddleOCR进行图片识别获得文字（返回JSON）

manus 的替代品有哪些？使用LLM大模型技术做手机/网页/浏览器自动化操作技术汇总