代码如下:
# -*- encoding=utf-8 -*- import urllib2 import sys content = urllib2.urlopen('http://www.douban.com').read() type = sys.getfilesystemencoding() print content print content.decode("UTF-8").encode(type)
打印content的内容就是一堆乱七八糟的东西:��}isI��w�����,U�$��i���o�tOL��{_��)
(���b���q+٭}o˖e��M��E�7!�Eܟb�U��ᝬ*�Ul$��V@-�'3�~2O�--�_����������?�~�������-�CD��tyt��6}����xܣ���,��0+0�����Y���6�t�c
然后decode的时候又报错:UnicodeDecodeError: 'utf8' codec can't decode byte 0x8b in position 1: invalid start byte
系统环境是Ubuntu1204, Python2,7 ,这究竟是什么问题呢?
先谢谢了!
可能是压缩了,看下头里面是不是有 Content-Encoding:xxx
如果是压缩了,需要手动解压,urllib是不会帮你解压的