被 robots.txt 禁止:scrapy

新手上路,请多包涵
阅读 681
2 个回答

在2016-05-11推出的新版本(scrapy 1.1)中,抓取前先下载robots.txt再抓取。要更改您的 settings.py 中的此行为更改 ROBOTSTXT_OBEY

 ROBOTSTXT_OBEY = False

这是 发行说明

原文由 Rafael Almeida 发布,翻译遵循 CC BY-SA 4.0 许可协议

Netflix 的使用条款规定:

您还同意不规避、删除、更改、停用、降级或阻挠 Netflix 服务中的任何内容保护;使用任何机器人、蜘蛛、爬虫或其他自动化方式访问 Netflix 服务;

他们设置了 robots.txt 来阻止网络抓取工具。如果您将 settings.py 中的设置覆盖为 ROBOTSTXT_OBEY=False 那么您就违反了他们的使用条款,这可能会导致诉讼。

原文由 CubeOfCheese 发布,翻译遵循 CC BY-SA 4.0 许可协议

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题
logo
Stack Overflow 翻译
子站问答
访问
宣传栏