新手上路，请多包涵

我正在尝试自学一些基本的网络抓取。使用 Python 的 requests 模块，我能够获取各种网站的 html，直到我尝试了这个：

 >>> r = requests.get('http://www.wrcc.dri.edu/WRCCWrappers.py?sodxtrmts+028815+por+por+pcpn+none+mave+5+01+F')

我得到的不是作为此页面源的基本 html，而是：

 >>> r.text
'\x1f\ufffd\x08\x00\x00\x00\x00\x00\x00\x03\ufffd]o\u06f8\x12\ufffd\ufffd\ufffd+\ufffd]...

>>> r.content
b'\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03\xed\x9d]o\xdb\xb8\x12\x86\xef\xfb+\x88]\x14h...

我已经尝试了很多 get/post 的组合，以及我可以从文档、SO 和其他示例中猜到的每种语法。我不明白我在上面看到的是什么，没能把它变成任何我能读懂的东西，也不知道如何得到我真正想要的东西。我的问题是，如何获取上述页面的 html？

原文由 Rich Thompson 发布，翻译遵循 CC BY-SA 4.0 许可协议

python html python-requests

阅读 351

2 个回答

得票最新

社区维基

发布于
2022-12-15

✓ 已被采纳

有问题的服务器给你一个 _gzipped 响应_。服务器也 _很坏_；它发送以下标头：

 $ curl -D - -o /dev/null -s -H 'Accept-Encoding: gzip, deflate' http://www.wrcc.dri.edu/WRCCWrappers.py?sodxtrmts+028815+por+por+pcpn+none+mave+5+01+F
HTTP/1.1 200 OK
Date: Tue, 06 Jan 2015 17:46:49 GMT
Server: Apache
<!DOCTYPE HTML PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "DTD/xhtml1-transitional.dtd"><html xmlns="http: //www.w3.org/1999/xhtml" lang="en-US">
Vary: Accept-Encoding
Content-Encoding: gzip
Content-Length: 3659
Content-Type: text/html

<!DOCTYPE..> 行 没有有效的 HTTP 标头。因此，忽略 Server 之后的剩余标头。为什么服务器会插入尚不清楚；在所有可能的引擎盖中 WRCCWrappers.py 是一个 CGI 脚本，它不输出标题，但在 doctype 行之后包含一个双换行符，欺骗 Apache 服务器在那里插入额外的标题。

因此， requests 也没有检测到数据是 gzip 编码的。数据都在那里，你只需要解码它。或者你可以，如果它不是相当不完整的话。

解决方法是告诉服务器不要打扰压缩：

 headers = {'Accept-Encoding': 'identity'}
r = requests.get(url, headers=headers)

并返回未压缩的响应。

顺便说一句，在 Python 2 上，HTTP 标头解析器不是那么严格，并且设法将 doctype 声明为标头：

 >>> pprint(dict(r.headers))
{'<!doctype html public "-//w3c//dtd xhtml 1.0 transitional//en" "dtd/xhtml1-transitional.dtd"><html xmlns="http': '//www.w3.org/1999/xhtml" lang="en-US">',
 'connection': 'Keep-Alive',
 'content-encoding': 'gzip',
 'content-length': '3659',
 'content-type': 'text/html',
 'date': 'Tue, 06 Jan 2015 17:42:06 GMT',
 'keep-alive': 'timeout=5, max=100',
 'server': 'Apache',
 'vary': 'Accept-Encoding'}

而 content-encoding 信息仍然存在，所以 requests 为您解码内容，正如预期的那样。

原文由 Martijn Pieters 发布，翻译遵循 CC BY-SA 3.0 许可协议

社区维基

发布于
2022-12-15

此 URL 的 HTTP 标头现已修复。

 >>> import requests
>>> print requests.__version__
2.5.1
>>> r = requests.get('http://www.wrcc.dri.edu/WRCCWrappers.py?sodxtrmts+028815+por+por+pcpn+none+mave+5+01+F')
>>> r.text[:100]
u'\n<!DOCTYPE html>\n<HTML>\n<HEAD><TITLE>Monthly Average of Precipitation, Station id: 028815</TITLE></H'
>>> r.headers
{'content-length': '3672', 'content-encoding': 'gzip', 'vary': 'Accept-Encoding', 'keep-alive': 'timeout=5, max=100', 'server': 'Apache', 'connection': 'Keep-Alive', 'date': 'Thu, 12 Feb 2015 18:59:37 GMT', 'content-type': 'text/html; charset=utf-8'}

原文由 Grant 发布，翻译遵循 CC BY-SA 3.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

使用 Python 请求获取 html？

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

问一个鼠标滚动事件，这种是怎么实现的？

form对象根据表单dom元素的name属性获取元素对象是基于什么标准的？兼容性如何？

Stack Overflow 翻译