实现自己的搜索引擎(二)

2014-08-04
阅读 2 分钟
3.9k
正向索引用来存储文档的各种属性,从逻辑上讲,正向索引其实就是一个大数组,数组中每个元素就是一个文档的属性集合。 如果正向索引是有Schema的,那么它其实就类似一个关系表或者说二维数组,纵轴是文档,横轴是属性;如果正向索引是Schema Free的,那么它就类似一个Map的数组,每个文档都是一个Map,key是属性名,valu...

实现自己的搜索引擎(一)

2014-07-03
阅读 2 分钟
8.3k
首先需要用输入数据创建索引,对于互联网搜索引擎,输入数据是一个个由爬虫从网上抓回来的网页,经过清洗之后进行内容抽取,然后整理成统一的格式交给索引程序创建索引。 索引由以下几个基本的组成部分: 1. 倒排索引,这一部分存放"关键字"->文档的映射,一般来说会把同一个关键字对应的所有文档按照统一方法整理成...