在抓取像 https://www.netflix.com 这样的网站时,被 robots.txt 禁止访问:https://www.netflix.com/>
错误:未下载响应: https ://www.netflix.com/
原文由 deepak kumar 发布,翻译遵循 CC BY-SA 4.0 许可协议
在抓取像 https://www.netflix.com 这样的网站时,被 robots.txt 禁止访问:https://www.netflix.com/>
错误:未下载响应: https ://www.netflix.com/
原文由 deepak kumar 发布,翻译遵循 CC BY-SA 4.0 许可协议
Netflix 的使用条款规定:
您还同意不规避、删除、更改、停用、降级或阻挠 Netflix 服务中的任何内容保护;使用任何机器人、蜘蛛、爬虫或其他自动化方式访问 Netflix 服务;
他们设置了 robots.txt 来阻止网络抓取工具。如果您将 settings.py
中的设置覆盖为 ROBOTSTXT_OBEY=False
那么您就违反了他们的使用条款,这可能会导致诉讼。
原文由 CubeOfCheese 发布,翻译遵循 CC BY-SA 4.0 许可协议
2 回答5.2k 阅读✓ 已解决
2 回答1.1k 阅读✓ 已解决
4 回答1.4k 阅读✓ 已解决
3 回答1.3k 阅读✓ 已解决
3 回答1.3k 阅读✓ 已解决
2 回答869 阅读✓ 已解决
1 回答1.7k 阅读✓ 已解决
在2016-05-11推出的新版本(scrapy 1.1)中,抓取前先下载robots.txt再抓取。要更改您的
settings.py
中的此行为更改 ROBOTSTXT_OBEY这是 发行说明