python 爬取网页编码问题

发布于
2016-08-18

我在爬取凤凰网却出现
UnicodeEncodeError: 'gbk' codec can't encode character 'xa0' in position 151120: illegal multibyte sequence

这是我的代码

__author__ = 'my'
import urllib.request
url = 'http://www.ifeng.com/'
req = urllib.request.urlopen(url)
req = req.read()
req = req.decode('utf-8')
print(req)

为什么utf8却报错GBK？

python

阅读 5.1k

5 个回答

同意并接受

✓ 已被采纳

这个是 cmd.exe 的问题，别的软件都能正确解码。例如记事本、浏览器。。。。

import urllib.request
import os
url = 'http://www.ifeng.com/'
rsp = urllib.request.urlopen(url)
body = rsp.read()
html = r'C:\ifeng.html' # 文件路径, 可以改成你自己想要的
with open(html, 'wb') as w:
    w.write(body) # 直接以 二进制 写入文件,不必解码.
os.popen('notepad.exe ' + html) # 用 记事本 打开,就可以看到内容了.

追加：
其实也可以修改cmd.exe 的编码为 utf-8(cp65001)
步骤：
1、运行CMD.exe
2、chcp 65001
3、修改窗口属性的字体
在CMD窗口标题栏上点击右键，选择"属性"->"字体"，将字体修改为True Type字体"Lucida Console"
如图:
图片描述

4、运行 python
图片描述

x.py 的内容：

import urllib.request

url = 'http://www.ifeng.com/'
rsp = urllib.request.urlopen(url)
body = rsp.read()
html = body.decode('utf-8')
print(html[:500]) # 前500个字符
#print(html) # 也可打印全部，看看有没有错

resolvewang

6751615

发布于
2016-08-19

更新于
2016-08-19

刚我把题主的代码放到pycharm中，没有出现这个问题。然后我用windows命令提示符一行一行敲，出现了这个问题。windows命令提示符是使用的gbk编码，而网页本身使用的是utf-8进行编码。如果你希望在命令行能运行它，那么需要这么写：

`__author__ = 'my'
import urllib.request
url = 'http://www.ifeng.com/'
req = urllib.request.urlopen(url)
req = req.read()
req = req.decode('gbk', 'ignore')
print(req)`

这里req = req.decode('gbk', 'ignore')我解释一下：要在windows命令提示符中显示，需要解码为gbk,但是utf-8本身有些字符使用gbk解码又会失败，所以需要第二个参数ignore，这个参数意思就是把不能解码的字符舍弃掉。
说句题外话，编码可能也会遇到这个问题，比如用requests库请求的话直接就是请求的字符串而不是字节类型，如果编码遇到问题也用str.encode('编码', 'ingore').decode('解码')来解决类似问题。
如果没听明白可以看看我的这篇博客

还有回答一下题主的一个问题，有的网页没问题可能是某些网页采用的就是GBK编码或者那些文字对于GBK和UTF-8都兼容

manong

6.2k1314

发布于
2016-08-18

估计你系统默认编码是gbk，你可以试试

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

默从心

1326

发布于
2016-08-18

你是用windows控制台运行的吧？因为控制台默认编码是gbk。
用python自带的解释器就没问题：
图片描述
或者用其他的工具，别用控制台就行。

fiveddd

442

发布于
2016-08-19

更新于
2016-08-19

# _*_ coding: utf-8 _*_
指定文件编码

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

声明你程序的编码。

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

被 3 篇内容引用

推荐问题

python 爬取网页编码问题

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？