最近发现,随着网站流量的上升,也引来了一些恶意抓取的程序。我不反对蜘蛛的抓取,但是有些抓取程序写的太恶心了,简直就是变相的ddos,高并发长时间不间断的抓取,产生了大量的垃圾日志信息,而且会占用网站的正常带宽。不知道有没有针对这种抓取比较好的办法,对一个ip还好说,我可以自己iptable
禁掉,是否有一种工具能够自动判断这种情况呢?别说要购买防火墙啊,希望有性价比高的方案。
最近发现,随着网站流量的上升,也引来了一些恶意抓取的程序。我不反对蜘蛛的抓取,但是有些抓取程序写的太恶心了,简直就是变相的ddos,高并发长时间不间断的抓取,产生了大量的垃圾日志信息,而且会占用网站的正常带宽。不知道有没有针对这种抓取比较好的办法,对一个ip还好说,我可以自己iptable
禁掉,是否有一种工具能够自动判断这种情况呢?别说要购买防火墙啊,希望有性价比高的方案。
防止恶意爬虫的方法很多,最常见的几样就是操作判断,若干次异常操作后跳转到一个验证码页面,或者是限制某个IP单位时间内访问的次数,nginx可以实现,内容保护的话,可以把主要内容用ajax获取。
建议的做法有以下几种:
http://robbin.iteye.com/blog/451014