UnicodeDecodeError: 'gb2312'

JohnsonChou

发布于
2016-04-13

用requests爬取一个网页，用BeautifulSoup解析
但是在print的时候一直打印乱码
然后我decode("gb2312")，因为那个网页的charset=gb2312，但是就提示：
UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 2-3: illegal multibyte sequence
但是我用gbk的话
就会通过，但是打印出一些『脦垄脨脜脜脷脫脩碌脛脟茅脠陇脌露脡芦脨隆碌脳驴茫』的文字。

新手求解！！

python 网页爬虫

阅读 4k

4 个回答

发布于
2016-04-18

打印乱码的原因很多，首先是打印的载体，也就是你的终端，比如，win下的控制台，与linux下的终端支持的编码就不一样，可能一个显示，一个不显示，还有就是一些IDE自带的终端，比如pycharm 都有可配置的编码所以说打印出乱码，原因很多，最好你完善一下具体的信息。

seewhy_chen

发布于
2016-04-13

试一下decode("gb2312", errors="ignore")

发布于
2016-04-13

requests不是都会转成unicode编码吗仔细看下文档

我勒个去

发布于
2016-04-17

预计你那段文字是utf8的

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题