原网页编码是utf-8可是抓取之后还是乱码

发布于
2017-12-26

import requests,re

req_list = requests.get('http://finance.eastmoney.com/news/cgnjj_3.html').text
list_url = re.search('<p class="title">.*?<a href="(.*?)".*?target="_blank">',req_list,re.S)
content_url = list_url.group(1)
content_source = requests.get(content_url).text
#yixia,huoquneirong
title = re.search('<h1>(.*?)</h1>',content_source).group(1)
time = re.search('<div class="time">(.*?)</div>',content_source).group(1)
source = re.search('<div class="source">(.*?)</div>',content_source,re.S).group(1)
content = re.search('<div id="ContentBody" class="Body">(.*?)<p class="res-edit">',content_source,re.S).group(1)
print(title)
print(time)
print(source)
print(content)

获取的内容都是乱码啊，我看了原网页，编码确实是utf-8

python

阅读 3.5k

3 个回答

得票最新

zhenian

381

发布于
2017-12-26

✓ 已被采纳

req = requests.get('http://finance.eastmoney.com/news/cgnjj_3.html')
req.encoding = 'UTF-8'
req_list = req.text

类似这样明确指明编码

雷子

41322236

发布于
2017-12-26

response = requests.get('http://finance.eastmoney.com/news/cgnjj_3.html')
response.encoding    # 查看响应的编码,我这里返回了'ISO-8859-1'
response.encoding = 'utf-8'
response.text    # OK

陆安

3.2k2417

发布于
2017-12-26

req_list = req_list.encode("latin1").decode("utf-8")
print(req_list)

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

原网页编码是utf-8可是抓取之后还是乱码

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

原网页编码是utf-8可是抓取之后还是乱码

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。 请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？