我想从 这个 网站获取内容。
如果我使用像 Firefox 或 Chrome 这样的浏览器,我可以获得我想要的真实网站页面,但如果我使用 Python requests 包(或 wget
命令)来获得它,它会返回一个完全不同的 HTML 页面。
我认为该网站的开发人员为此做了一些阻止。
问题
如何使用 python 请求或命令 wget 伪造浏览器访问?
原文由 user1726366 发布,翻译遵循 CC BY-SA 4.0 许可协议
我想从 这个 网站获取内容。
如果我使用像 Firefox 或 Chrome 这样的浏览器,我可以获得我想要的真实网站页面,但如果我使用 Python requests 包(或 wget
命令)来获得它,它会返回一个完全不同的 HTML 页面。
我认为该网站的开发人员为此做了一些阻止。
如何使用 python 请求或命令 wget 伪造浏览器访问?
原文由 user1726366 发布,翻译遵循 CC BY-SA 4.0 许可协议
我使用 了假的 UserAgent 。
如何使用:
from fake_useragent import UserAgent
import requests
ua = UserAgent()
print(ua.chrome)
header = {'User-Agent':str(ua.chrome)}
print(header)
url = "https://www.hybrid-analysis.com/recent-submissions?filter=file&sort=^timestamp"
htmlContent = requests.get(url, headers=header)
print(htmlContent)
输出:
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_2) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1309.0 Safari/537.17
{'User-Agent': 'Mozilla/5.0 (X11; OpenBSD i386) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36'}
<Response [200]>
原文由 Umesh Kaushik 发布,翻译遵循 CC BY-SA 4.0 许可协议
2 回答4.3k 阅读✓ 已解决
2 回答850 阅读✓ 已解决
1 回答4.1k 阅读✓ 已解决
3 回答840 阅读✓ 已解决
2 回答2.1k 阅读✓ 已解决
4 回答2.5k 阅读
3 回答893 阅读✓ 已解决
提供
User-Agent
标头:仅供参考,这里是不同浏览器的用户代理字符串列表:
附带说明一下,有一个非常有用的第三方包叫做 fake-useragent ,它在用户代理上提供了一个很好的抽象层:
演示: