并不能,今天才在其他地方看到 robots.txt 只防君子不防小人。特别是一些回复说自己的爬虫专门爬申明了不允许爬的站点内容。主要是爬虫可以模拟正常用户浏览的请求头,你并没有办法去识别是否是爬虫。限制请求的频率,太高了直接ban掉,也是治标不治本。或者可以考虑接入人机验证的插件?
并不能,今天才在其他地方看到
robots.txt
只防君子不防小人。特别是一些回复说自己的爬虫专门爬申明了不允许爬的站点内容。主要是爬虫可以模拟正常用户浏览的请求头,你并没有办法去识别是否是爬虫。限制请求的频率,太高了直接
ban
掉,也是治标不治本。或者可以考虑接入人机验证的插件?