选了个课题:大概是开发一个web系统,系统功能是使用分布式爬虫(这里需要用Hadoop)去爬取主机信息,包括开放的端口、存在的漏洞有哪些,什么xss呀,sql注入什么的,再添加一些用户管理扫描出来的漏洞,并且将漏洞信息可视化出来,需要用Java实现,分布式爬虫可以使用nutch框架。
问题是:完全没思路,web系统开发出来没问题,但是怎么结合nutch框架去实现爬虫,又怎么结合上Hadoop,以及爬取主机信息怎么实现,漏洞怎么去扫描。
希望大家能提供一些思路,或者是学习路线也可以,非常感谢!
目前的情况是:已经搭建好分布式Hadoop,节点都能正常启动,也安装了nutch,但是操作分布式爬取的时候,我对照着教程一步步来的,就是爬不到数据,系统还没开发,因为不知道怎么和其他需求结合起来。