简要说明一下,首先我们有一个关于网页数据表来存储网址: id url content 1 www.aaa.com 你好,张三 2 www.bbb.com 你好,李四 3 www.ccc.com 吃了没,王五 4 www.ddd.com 吃了没,李四 然后搜索引擎爬取到的内容就存在这个网页数据表里面,之后会有相应的分词程序来给网页内容分词: 你好,张三、李四,吃了没,王五 接来下根据分好的词给网页做一个倒排索引数据表: id word url_ids 1 你好 1,2 2 张三 1 3 李四 2,4 4 吃了没 3,4 5 王五 4 最后,就是用户搜索关键词,比如搜索『你好』,直接就把id为1、2的相应摘要内容返回给用户即可。当时实际情况比上面这些表要复杂的多得多,希望能帮助你理解。
简要说明一下,首先我们有一个关于网页数据表来存储网址:
然后搜索引擎爬取到的内容就存在这个网页数据表里面,之后会有相应的分词程序来给网页内容分词:
接来下根据分好的词给网页做一个倒排索引数据表:
最后,就是用户搜索关键词,比如搜索『你好』,直接就把id为1、2的相应摘要内容返回给用户即可。
当时实际情况比上面这些表要复杂的多得多,希望能帮助你理解。