搜索引擎是怎样的存在?(三 信息处理模块)

生活中总有些东西,我们触手可及,感觉平凡无奇,但却又实实在在说不出其中的奥妙,搜索引擎(Search Engines)便是其一。

信息处理的由来

信息检索实质上是一个用户需求与信息系统匹配的过程。

在上一节,我们把信息搜集好了,别人要来找,我们得想办法把我们搜集的信息组织好,让别人好找,这就是信息处理的由来。

先来看一下,它的大体流程:

95d44e3f4368dbfea9e4070a0bc56230_b.png

由此可见,信息处理过程,建立索引库是一个核心工程。

所以信息处理过程主要由以下三步构成:

  1. 建立索引

  2. 建立索引网页库

  3. 建立倒排索引词表

那怎么弄?

索引

索引针对于网页内容。索引来源于爬取到的原始网页,搜索引擎会对网页进行解析,尽可能地将每个网页转换成一组词的集合(如图)

d8025b110215a31a08d38f3a1785a7fd_b.png

意思就是,你输入的中文词语、词组全会被转化为数字,查询效率当然高了。

这里就必须用到分词技术,英文字母有天然的分隔符——空格,汉字比较麻烦,所以中文分词技术一直是个难点 ,通常有:

  1. 基于字符串的分词法

  2. 基于统计的分词法

具体怎么实现,本篇文章不作深入探讨。

索引网页库

索引网页库是对索引的二次整理。大量网页的索引词表集合就形成了索引网页库,因为如果不建立网页索引库,顺序遍历网页URL,将消耗大量的资源,。

索引网页库通过MD5算法,将网页内容和URL摘要信息,分别记录为16个字节的唯一标识,同时为了方便查看,将这16个字节转化为23字节的ASCLL码。最终通过 ISAM(索引顺序访问模式)来进行存储,保证数据的紧凑性和检索能力。同时在网页索引文件存储之后,还会存在URL索引文件,同时通过文档编号,将URL摘要信息和网页摘要信息联系起来。

倒排索引词表

解析出词集的同时,搜索引擎还会记录不同词出现的位置、频率 赋予不同单词不同的权重,然后在数据结构中自动地给他们分配ID,整个组合起来形成一条记录,记录包含文档编号 、索引信息等等。所以,如果我们知道,某数据存放的ID,我们就能找到该数据信息,但是,我们检索信息的时候,一般会输入自然语言,所以,我们将数据->文档ID转换为文档ID->数据,就构成了倒排索引列表(反转列表)如下图:

8112f24cba8ad0e775e21157ff88dd01_b.png

倒排索引是搜索引擎实现快速、大量反应请求的很重要的一个数据结构安排。

信息处理过程实质上是一个非常冗杂的过程,分析网页,我们针对不同的格式可能要编写不同的解析器,运用各种算法,建立各种语言模型,才能有效地解析数据,表达信息,为信息查询服务提供后台支持。

青年 ---------------

735 声望
186 粉丝
0 条评论
推荐阅读
PHP手写MVC (五)—— 路由
路由是一个框架中必不可少的组件,其作用是把 URL 按照预定规则解析到特定控制器中。 我们在这里定义了两种路由规则: 查询字符串。在路径后面使用问号加参数,多个参数用 & 分隔。在配置文件使用 querystrin...

entner4阅读 3.3k

Mysql索引覆盖
通常情况下,我们创建索引的时候只关注where条件,不过这只是索引优化的一个方向。优秀的索引设计应该纵观整个查询,而不仅仅是where条件部分,还应该关注查询所包含的列。索引确实是一种高效的查找数据方式,但...

京东云开发者2阅读 924

封面图
ElasticSearch必知必会-基础篇
定义: 相同文档结构(Mapping)文档的结合 由唯一索引名称标定 一个集群中有多个索引 不同的索引代表不同的业务类型数据 注意事项: 索引名称不支持大写 索引名称最大支持255个字符长度 字段的名称,支持大写,...

京东云开发者2阅读 544

封面图
跟烤冷面一起做SEO实验:开篇词
我可怜的网站一切的起因都源于我去年年底创建的网站 腐蚀脚本,既然建立了网站,总是希望有人看的,然而事实就是这么残酷,我的博客真的没有多少观众老爷捧场 0.0这里我也不管我那可怜的自尊心了,给大家看看网站...

烤冷面阅读 511

ChatGPT集成之前,让我们复习一下即将过时的知识
各大搜索引擎集成 ChatGPT 的步调已经在逐步加紧了。也许这将极大的改变搜索引擎的生态。那么就让我们在时代迎来巨变之前,复习一下即将过时的搜索引擎知识吧。

newbe36524阅读 286

封面图
ChatGPT 不是黑魔法,“替代搜索引擎”言之尚早
整个 LLM 和搜索领域都已经在过去几个月内发生了翻天覆地的变化。ChatGPT 不再是一个玩具,它开始被微软、谷歌集成在搜索以及各个 SaaS 服务中,且取得了令人惊叹的效果。

Zilliz阅读 266

封面图
为SEO提供基础的软硬件设施
取一个简短而又令人难忘的域名名字非常重要,域名最好和网站的名字一致,不但利于 SEO,同时也帮助用户在忘记收藏你网站时,通过网站名联系到网站地址(比如百度和baidu.com)。

烤冷面阅读 231

封面图

青年 ---------------

735 声望
186 粉丝
宣传栏