golang实现抓取IP地址的蜘蛛程序

2018-06-28
阅读 5 分钟
4.5k
背景 要做IP地址归属地查询,量比较大,所以想先从网上找到大部分的分配数据,写个蜘蛛程序来抓取入库,以后在程序的运行中不断进行维护、更新、完善。 一些关键点 goroutine的使用,让程序并行运行。 正则表达式分组信息提取的使用,正确的提取我们关注的信息。 数据库批量插入操作。 数据库批量更新操作。 代码解析 按...

node.js写爬虫程序抓取维基百科(wikiSpider)

2015-12-16
阅读 3 分钟
6.8k
思路一(origin:master):从维基百科的某个分类(比如:航空母舰(key))页面开始,找出链接的title属性中包含key(航空母舰)的所有目标,加入到待抓取队列中。这样,抓一个页面的代码及其图片的同时,也获取这个网页上所有与key相关的其它网页的地址,采取一个类广度优先遍历的算法来完成此任务。思路二(origin:cat...