禁止自己的网站被爬虫爬去?有什么方法啊
不知道你说的爬虫是指百度爬虫还是我们自己编写的爬虫。
百度爬虫按楼上的方法就好了,而防止别人的爬虫有很多方法,比如所有class,或者id都动态生成。因为爬虫解析html一般是通过class或者id来获取想要的东西的。
1) JS什么的可以试试gzip压缩,很多爬虫不会爬取gzip压缩的js
2)使用log分析web服务器的日志,如果是恶意的访问你的关键资源的,并且对方是一个固定IP,可以试着ban掉对方IP
没有用的,首先你的网站本身对人公开,那自然也就对爬虫公开,除非换成内部网络,如果你把精力做到防止爬虫上去,还不如提高质量,现在分类信息网站都是爬来爬去,而用户体验基本没有提升。
首先是你很难做到说100%不让爬虫爬取到,除非像楼上说的那样是内部网络。
但是你可以做一些的措施用来防止一些技术含量低的小爬虫爬取你的网站。
具体的措施可以移步到知乎,看看这篇文章点这里
希望能帮到你
重要内容使用js动态添加
限制http_referer
不同的界面可以考虑不同的模板,一套正则不能完美匹配的那种
在可能会爬的内容里随机加一些版权信息
.登陆之后才可以进行访问
记录访问日志
能想到的就这些,不过如果真的想抓,这些也就只是增加一点抓取的难度而已
4 回答4.5k 阅读✓ 已解决
1 回答3.2k 阅读✓ 已解决
4 回答3.8k 阅读✓ 已解决
3 回答2.2k 阅读✓ 已解决
1 回答4.4k 阅读✓ 已解决
1 回答3.9k 阅读✓ 已解决
1 回答2.8k 阅读✓ 已解决
加一个robots.txt文件,内容: