搜索引擎的数据库分为`网页数据库`和`索引数据库`,它们之间的关系是什么?

搜索引擎的数据库分为网页数据库索引数据库

比如百度收录一个网站: www.hao123.com

是将这个网站的内容存入到网页数据库还是存入到索引数据库

它们之间的关系是什么?

阅读 2.8k
1 个回答

简要说明一下,首先我们有一个关于网页数据表来存储网址:

id url content
1 www.aaa.com 你好,张三
2 www.bbb.com 你好,李四
3 www.ccc.com 吃了没,王五
4 www.ddd.com 吃了没,李四

然后搜索引擎爬取到的内容就存在这个网页数据表里面,之后会有相应的分词程序来给网页内容分词:

你好,张三、李四,吃了没,王五

接来下根据分好的词给网页做一个倒排索引数据表

id word url_ids
1 你好 1,2
2 张三 1
3 李四 2,4
4 吃了没 3,4
5 王五 4

最后,就是用户搜索关键词,比如搜索『你好』,直接就把id为1、2的相应摘要内容返回给用户即可。
当时实际情况比上面这些表要复杂的多得多,希望能帮助你理解。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进