chardet.detect无法获取字符编码，字符编码为乱码怎么办？

Question

chardet.detect无法获取字符编码，字符编码为乱码怎么办？

铁伙伴

78412123134

发布于
2015-08-17

使用chardet.detect获取的encoding为None，字符串打印出来是完全的乱码，不知道该怎么办？

python

阅读 8.8k

1 个回答

得票最新

吊车尾

2

发布于
2017-06-19

新手上路，请多包涵

可能是抓取的网页被压缩了缘故，您可以试一下用这个抓取网页：
参考来源：http://www.cnblogs.com/jixin/...

import socket
import urllib2
import zlib

user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }

def Get(url, refer=None):

try:
    req = urllib2.Request(url,headers = headers)
    req.add_header('Accept-encoding', 'gzip')#默认以gzip压缩的方式得到网页内容
    if not (refer is None):
        req.add_header('Referer', refer)
    response = urllib2.urlopen(req, timeout=120)
    html = response.read()
    gzipped = response.headers.get('Content-Encoding')#查看是否服务器是否支持gzip
    if gzipped:
        html = zlib.decompress(html, 16+zlib.MAX_WBITS)#解压缩，得到网页源码
    return html
except urllib2.HTTPError, e:
    return e.read()
except socket.timeout, e:
    return ''
except socket.error, e:
    return ''

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

chardet.detect无法获取字符编码，字符编码为乱码怎么办？

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？