以前常爬取的一个网站突然加入防护措施。原来正常,现在仅仅使用urllib里urlopen只尝试获取主页HTML时,
Request加入headers会出现这种错误:
Request不加headers会出现这种错误
但各浏览器完全可以正常访问。
请问大神这种情况urlib已经无能为力了,只能换scrapy或者selenium了吗?
以前常爬取的一个网站突然加入防护措施。原来正常,现在仅仅使用urllib里urlopen只尝试获取主页HTML时,
Request加入headers会出现这种错误:
Request不加headers会出现这种错误
但各浏览器完全可以正常访问。
请问大神这种情况urlib已经无能为力了,只能换scrapy或者selenium了吗?
4 回答4.5k 阅读✓ 已解决
1 回答3.5k 阅读✓ 已解决
4 回答3.9k 阅读✓ 已解决
3 回答2.3k 阅读✓ 已解决
2 回答530 阅读✓ 已解决
1 回答4.6k 阅读✓ 已解决
1 回答4k 阅读✓ 已解决
304表示资源未修改,你应该是传错header了