有什么方法防止被其他网站的爬虫爬取自己在技术博客里写的文章,但又能可以让百度,Google等搜索引擎收录?

新手上路,请多包涵

在百度竟然搜到了一个网站上竟然有我在自己博客上写的文章,内容是完全一样的,一个标点符号都懒得改,明显是用爬虫爬下来的。

阅读 1.7k
1 个回答

并不能,今天才在其他地方看到 robots.txt 只防君子不防小人。特别是一些回复说自己的爬虫专门爬申明了不允许爬的站点内容。
主要是爬虫可以模拟正常用户浏览的请求头,你并没有办法去识别是否是爬虫。限制请求的频率,太高了直接ban掉,也是治标不治本。

或者可以考虑接入人机验证的插件?

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
宣传栏