elastic stack 那些事【7】

Fox_Valentin

2022-12-26 陕西

阅读 1 分钟

0

聚合分析 aggregation

es 在搜索功能之外，提供的针对数据统计分析的功能

功能丰富，提供bucket metric pipeline 等多种分析方式
实时性高，所有结果都是即时返回，而hadoop等大数据系统是t+1级别

聚合分析种类

bucket 分桶类型类似sql中的group by 语法
metric 指标分析类型如计算最大值最小值平均值等
pipeline 管道分析类型，基于上一级的聚合分析结果进行再分析
matrix 矩阵分析类型

metric 聚合分析

单值分析
1. min max avg sum
2. cardinality
多值分析
1. stats extends stats
2. percentile percentile rank
3. top hits

bucket 聚合分析

将文档归类为不同的bucket中

terms
range
date range
histogram
1. 直方图以固定间隔策略来分割数据
date histogram

pipeline

pipeline 的分析结果会输出到原结果中根据输出位置不同分为两类
1. parent 结果内嵌到现有的聚合分析结果中
  1. derivative
  2. moving average
  3. cumulative sum
2. sibling 结果与现有聚合分析结果同级
  1. max min avg sum bucket
  2. stats extended stats bucket
  3. percentile bucket

作用范围

es默认的作用范围是query结果集，也可以设置其他范围
1. filter 为了聚合分析设定过滤条件，不更改整体query语句的情况下调整作用范围
2. post_filter 作用域文档过滤但在聚合分析后生效
3. global 无视query过滤条件基于全部文档进行分析

排序

可以使用自带的关键数据进行排序

_count文档数
_key按照key值排序

原理与精准度问题

原因数据分散在多个shard上

设置shard为1 消除苏韩剧分散问题
设置shard size 即每次从shard上额外获得文档

terms聚合返回结果中有如下两个统计值

doc_count_error_upper_bound 被遗漏的term的可能的最大值
sum_other_doc_count返回结果bucket的term外其他term的文档总数

shard size 默认大小如下 size*1.5 + 10
通过调整shard size的大小降低 doc_count_error_upper_bound 来提升准确度大了整体计算量降低了响应时间

阅读 739发布于 2022-12-26

Fox_Valentin

1 声望1 粉丝

« 上一篇

elastic stack 那些事【6】

下一篇 »

elastic stack 那些事【8】

引用和评论

推荐阅读

大数据之sarpk、sparkSQL、sparkStreaming、Hbase、Kudu、Alluxio

Fox_Valentin阅读 613

Java8的新特性

codecraft赞 36阅读 31.5k评论 1

Java11的新特性

codecraft赞 28阅读 22.3k评论 3

Java5的新特性

codecraft赞 13阅读 26.2k

Java9的新特性

codecraft赞 20阅读 18.5k

Java13的新特性

codecraft赞 17阅读 13.6k

Java7的新特性

codecraft赞 10阅读 21.1k

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。