python3爬虫突然HTTPError……

以前常爬取的一个网站突然加入防护措施。原来正常,现在仅仅使用urllib里urlopen只尝试获取主页HTML时,
Request加入headers会出现这种错误:
图片描述

Request不加headers会出现这种错误
图片描述

但各浏览器完全可以正常访问。

请问大神这种情况urlib已经无能为力了,只能换scrapy或者selenium了吗?

阅读 2.1k
2 个回答

304表示资源未修改,你应该是传错header了

抓包分析一下,你的爬虫发出的请求和浏览器发出的请求有何不同?
另外有没有用代理池?

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题