本人很喜欢搜索引擎技术,最近想搭建一个属于自己的私人搜索引擎,自动完成所有的出来流程,记录一下。
把某个行业、某个领域,对应的网址放在一个txt文件内,接下来动动鼠标,点几下,从爬取到最后即时搜索,自动全部搞定,效果跟在百度搜索没什么两样。
以下是具体的操作流程逻辑:
第一步:创建一个索引任务,一键生成
这个操作会自动创建对应的表,用来存放爬取的网页内容,不需要人工创建,省去一些过于细化的配置。
第二步,开始自动内容爬取,自动入库
这个过程会先在后台进行多线程链接爬取,然后再进行多线程内容爬取,只需要指定链接文件,爬取层数,是否遵循robots,保存表,就可以一键开始爬取,期间会有进度条显示。
第三步,一键更新指定内容索引
这个过程会通过索引模块,对某个表进行分词,索引,生成倒排索引文件,此过程也是全自动的。
第四步,指定搜索库,开始搜索
生成完索引后,可以指定哪个索引作为当前搜索的搜索库,然后就可以自由搜索了
关于数据承载量,普通版本单机可承载几十万数据,高级版本单机可承载千万级数据,主要在于算法逻辑和数据结构的区别。语言为php+mysql,主打一个傻瓜式操作,配置方便。
如果你也喜欢搜索技术,可以互相交流。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。