urllib2 乱码问题

发布于
2013-04-10

代码如下：

# -*- encoding=utf-8 -*- 
import urllib2 
import sys 
content = urllib2.urlopen('http://www.douban.com').read() 
type = sys.getfilesystemencoding() 
print content 
print content.decode("UTF-8").encode(type)

打印content的内容就是一堆乱七八糟的东西：��}isI��w��,U�$��i��o�tOL��{_��)
(��b��q+٭}o˖e��M��E�7!�Eܟb�U��ᝬ*�Ul$��V@-�'3�~2O�--�_��?�~��-�CD��tyt��6}��xܣ��,��0+0��Y��6�t�c

然后decode的时候又报错：UnicodeDecodeError: 'utf8' codec can't decode byte 0x8b in position 1: invalid start byte

系统环境是Ubuntu1204, Python2,7 ,这究竟是什么问题呢？
先谢谢了！

python

阅读 12.1k

3 个回答

丁亚光

✓ 已被采纳

可能是压缩了，看下头里面是不是有 Content-Encoding:xxx
如果是压缩了，需要手动解压，urllib是不会帮你解压的

def unzip(self,data):
        import gzip
        import StringIO
        data = StringIO.StringIO(data)
        gz = gzip.GzipFile(fileobj=data)
        data = gz.read()
        gz.close()
        return data

greatghoul

2.1k52130

发布于
2013-04-10

很奇怪的问题，你用 logging 打下能否正常输出中文。

# -*- encoding=utf-8 -*- 
import logging
import urllib2 
import sys 

logging.basicConfig(level=logging.INFO)

content = urllib2.urlopen('http://www.douban.com').read() 
logging.info(type(content)) 
logging.info(content.decode('utf-8'))

selfboot

8k164058

发布于
2013-04-10

首先你的代码在我这里运行数据显示正常。不过根据你的输出来看，应该不是抓取到网页的编码错误（里面连ascii字符都没有，一般的乱码英文字符还是可以显示出来的）。猜测可能是你的源码文件编码错误。

另外，代码中说明源码文件编码，用coding：

# -*- coding=utf-8 -*-

还有type是内置类型，一般不要把变量名命名为python自带的类型名。

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

urllib2 乱码问题

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

urllib2 乱码问题

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。 请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？