python：requests获取网页源码的时候乱码

def getHtml(url,timeout=20):
    try:
        headers = {
            'Accept-Language': 'zh-cn',
            'Content-Type': 'application/x-www-form-urlencoded',
            'User-Agent': 'Mozilla/4.0 (compatible MSIE 6.00 Windows NT 5.1 SV1)',
        }
        r = requests.get(url,headers=headers,timeout=timeout)
        html = r.text
        return html
    except Exception,ex:
        return None
soup = BeautifulSoup(getHtml())
print soup.title

以上代码，如何改进，才能在获取任何网页标题的时候，不至于乱码。
注：提取部分网页的标题的时候会直接乱码显示。如何改进，才能通用？

python

阅读 10.4k

6 个回答

得票最新

damnever

191115

发布于
2015-01-20

有个 chardet 用来检测编码的，如果安装了，BeautifulSoup 貌似会自动调用这个库来检测编码并 decode 成 unicode。

对了，上面是从网上看的。

总之拿到文件编码就好办了。

xiaochao

1.8k2210

发布于
2015-01-20

查看一下网页的编码，比如是gbk的话，就r.encoding='gbk'。一下内容摘自requests文档

Requests会自动解码来自服务器的内容。大多数unicode字符集都能被无缝地解码。

请求发出后，Requests会基于HTTP头部对响应的编码作出有根据的推测。当你访问 r.text 之时，Requests会使用其推测的文本编码。你可以找出Requests使用了什么编码，并且能够使用 r.encoding 属性来改变它:

r.encoding
'utf-8'
r.encoding = 'ISO-8859-1'
如果你改变了编码，每当你访问 r.text ，Request都将会使用 r.encoding 的新值。你可能希望在使用特殊逻辑计算出文本的编码的情况下来修改编码。比如 HTTP 和 XML 自身可以指定编码。这样的话，你应该使用 r.content 来找到编码，然后设置 r.encoding 为相应的编码。这样就能使用正确的编码解析 r.text 了。