elastic stack 那些事【2】

Fox_Valentin

2022-12-23 陕西

阅读 1 分钟

0

倒排索引与正排索引

正排索引类似书的目录
1. 由书的章节指向章节关键词
2. es 中文档id 对应的单词
倒排索引类似书的索引
1. 由内容的关键词指向页数
2. es 单词对应文档id
倒排索引的使用
1. 通过倒排索引获取关键词的文档id
2. 通过正排索引查出对应id文档
3. 返回文档内容

倒排索引由单词词典和倒排列表组成

单词词典 term dictionary
1. 记录所有文档的单词
2. 记录单词到倒排列表的关联信息
3. 一般用B+ Tree实现
倒排列表 posting list
1. 记录了单词对应的文档集合由倒排索引项组成
2. 倒排索引项包括：文档Id 单词频率位置偏移

分词

指将文本转换成一系列单词的过程，也可以叫做文本分析，在es中成为Analysis。
分词器 es 中专门处理分词器的组件，英文为Analyzer，组成如下也是 analyzer 调用的顺序
1. character filter 针对原始文本进行处理例如去除 html标记
2. tokenizer 将原始文本按照一定的会泽切分为单词
3. token filter 针对 tokenizer处理的单词再加工例如转小写等

analyzer api

es 提供测试分词的api接口，_analyzer

可以直接指定analyzer
可以指定索引中的字段
可自定义分词器

阅读 663发布于 2022-12-23

Fox_Valentin

1 声望1 粉丝

« 上一篇

elastic stack 那些事【1】

下一篇 »

elastic stack 那些事【3】

引用和评论

推荐阅读

大数据之sarpk、sparkSQL、sparkStreaming、Hbase、Kudu、Alluxio

Fox_Valentin阅读 580

Java8的新特性

codecraft赞 35阅读 31.2k评论 1

Java11的新特性

codecraft赞 28阅读 22.1k评论 3

Java5的新特性

codecraft赞 13阅读 25.4k

Java9的新特性

codecraft赞 20阅读 18.3k

Java13的新特性

codecraft赞 17阅读 13.4k

Java7的新特性

codecraft赞 10阅读 20.9k

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。