深入理解 StarRocks Bitmap 索引和 Bitmap 去重

在 StarRocks 中，Bitmap 索引和 Bitmap 去重是两种基于位图技术的核心功能，但它们的应用场景、实现机制以及优化目标存在显著差异。以下从定义、作用、实现原理、适用场景及限制等方面进行详细对比分析：

一、Bitmap 索引的作用与原理

StarRocks 中的 Bitmap 索引是一种特殊的数据库索引，其主要作用是优化查询性能，特别是在处理低基数列（如性别、地区等）和高基数列的过滤查询中表现突出。

具体来说，Bitmap 索引通过将数据映射为位图（bit array），每个 bit 对应表中的一个数据行，根据行的值决定 bit 的 0 或 1 状态，从而实现高效的集合运算和过滤操作。

1. 核心作用

查询加速：Bitmap 索引主要用于优化低基数列的等值查询（=）、范围查询（>， <等）和IS NULL查询。
多条件组合过滤：通过bitmap_and()、bitmap_or()等函数实现多列联合查询的高效筛选（例如用户标签组合查询）。
减少数据扫描：通过位图的位运算快速确定符合条件的数据页（Page），降低 I/O 和计算开销。

2. 实现原理

字典与位图映射：每个唯一值对应一个编码 ID，并生成一个位图，其中每一位表示该值是否存在于某一行。例如，性别列gender的字典可能为{'male': 1, 'female': 2}，对应的位图标记行是否存在该值。
存储优化：字典和位图按 Page（默认 64KB）组织，索引部分常驻内存，加速查询。
自适应选择机制：根据过滤条件涉及的列值数量与基数的比例（bitmap_max_filter_ratio参数），动态决定是否使用索引。

3. 适用场景

低基数列：基数范围建议在 10,000 至 100,000 之间，例如地区、产品类别等。
多列组合查询：例如用户画像中同时满足“年龄=30 岁”且“消费等级=高”的筛选。
非前缀过滤：不依赖主键或前缀索引的场景，支持任意列的独立查询。

在用户画像、实时报表、行为分析等场景中，Bitmap 索引能够显著提升查询速度，例如统计男女用户数量或快速过滤特定条件的数据。物化视图结合 Bitmap 索引，可以进一步优化复杂查询的性能。

4. 限制

数据类型限制：不支持FLOAT、DOUBLE、BOOLEAN和DECIMAL列。
模型依赖：在聚合模型中仅允许为 Key 列创建索引。
高基数负面影响：基数过高会导致索引存储膨胀，影响导入性能和磁盘空间。

StarRocks 的 Bitmap 索引通过高效的数据结构设计和优化机制，在特定场景下能够显著提升查询性能，尤其适用于低基数列的过滤和统计操作。不过，其适用范围和效果需根据具体业务需求和数据特性，进行合理选择和调整。

二、Bitmap 去重的作用与原理

1. 核心作用

精确去重统计：用于计算COUNT(DISTINCT)指标（如 UV、订单数等），替代传统哈希或排序方法。
节省存储与计算资源：通过位压缩减少存储占用，并利用位运算（如bitor）加速聚合。
MPP 并行优化：分布式计算节点独立生成子位图，合并后生成全局去重结果。

2. 实现原理

位图置位与统计：将元素值映射到位图下标，置位表示存在，最终统计置位数量即为去重结果。
Roaring Bitmap 优化：针对稀疏数据优化存储，减少内存占用。
全局字典转换：非整型数据（如字符串）需通过全局字典映射为整数，再构建位图。

3. 适用场景

高基数列精确统计：例如用户 ID、订单 ID 的去重计算。
实时分析：在物化视图中预计算高频去重指标，加速查询。
海量数据聚合：替代传统COUNT DISTINCT，避免多次 Shuffle 操作。

4. 限制

数据类型限制：原生支持TINYINT、SMALLINT、INT、BIGINT，其他类型需全局字典。
全局字典构建复杂度：字典维护可能引入额外 ETL 流程（如 Flink 实时同步）。
连续性影响性能：数据若连续递增（如自增 ID），Roaring Bitmap 性能更优。

StarRocks 中的 Bitmap 去重技术通过精确、高效的方式解决了大数据场景下的去重问题，提升了查询性能并降低了存储成本。

三、两者的核心区别

Bitmap 索引是“查询加速器”，解决低基数列的筛选效率问题，Bitmap 去重是“精确计数器”，解决高基数列的聚合性能问题。两者在底层实现和适用场景上互补，结合使用可在复杂分析场景中实现端到端优化。

1. 功能目标

Bitmap 索引：优化查询过滤，减少数据扫描量，提升筛选效率。
Bitmap 去重：优化聚合计算，实现高效精确去重统计。

2. 技术实现

索引结构：基于列值的字典和位图映射，用于快速定位数据页。
去重机制：基于元素到位的映射，通过置位和统计操作完成聚合。

3. 适用数据类型

索引适用：低基数的枚举型列（如性别、状态码）。
去重适用：高基数的唯一标识列（如用户 ID、订单 ID）。

4. 存储与性能影响

索引开销：索引占用磁盘空间，可能影响导入性能。
去重开销：全局字典转换和稀疏位图存储可能增加 ETL 复杂度。

5. 二者分别适用的业务场景

场景 1：用户画像分析（Bitmap 索引）

需求：筛选出“北京地区、性别为女性、最近 7 天有购物行为的用户”。
Bitmap 索引应用：
- 对city、gender、last_purchase_time三列分别创建 Bitmap 索引。
- 通过bitmap_and()合并三个条件对应的位图，快速得到满足条件的用户 ID 集合。
- 直接读取目标位图对应的数据页，避免全表扫描。
优势：减少 90%的数据扫描量，查询耗时从秒级降至毫秒级。

场景 2：实时 PV/UV 统计（Bitmap 去重）

需求：计算“当日每个广告的曝光次数（PV）和独立用户数（UV）”。
Bitmap 去重应用：
- 使用BITMAP_UNION聚合函数，将用户 ID 转换为位图。
- 每个计算节点生成局部位图，通过BITMAP_UNION_COUNT合并全局位图并统计 UV。
- PV 直接通过COUNT(*)计算。
优势：10 亿级数据下，UV 计算从分钟级降至秒级，且结果精确。

四、总结

选择 Bitmap 索引的条件：
- 需要加速低基数列的等值或范围查询。
- 多列组合查询频繁，且过滤条件可有效减少扫描量。
- 可接受索引存储和导入性能的一定损耗。
选择 Bitmap 去重的条件：
- 需要高效计算高基数列的精确去重指标。
- 数据规模大，传统COUNT DISTINCT性能不足。
- 已通过全局字典解决非整型数据映射问题。

在用户行为分析中，可同时使用 Bitmap 索引加速标签筛选（如“点击广告的用户”），并通过 Bitmap 去重统计唯一用户数，实现端到端的高效分析。通过合理设计索引策略与去重方案，StarRocks 的 Bitmap 技术能够在复杂查询和大规模数据场景中发挥关键作用。

深入理解 StarRocks Bitmap 索引和 Bitmap 去重

一、Bitmap 索引的作用与原理

1. 核心作用

2. 实现原理

3. 适用场景

4. 限制

二、Bitmap 去重的作用与原理

1. 核心作用

2. 实现原理

3. 适用场景

4. 限制

三、两者的核心区别

1. 功能目标

2. 技术实现

3. 适用数据类型

4. 存储与性能影响

5. 二者分别适用的业务场景

场景 1：用户画像分析（Bitmap 索引）

场景 2：实时 PV/UV 统计（Bitmap 去重）

四、总结

镜舟科技

引用和评论

什么是物化视图（Materialized View）？

做到真正0丢失、0重复：Apache SeaTunnel 实现万亿级数据一致性全解密

MySQL慢查询日志：性能优化的终极指南

Devin 发布 DeepWiki，2 星的项目直接装出万星的气场

好用的开源埋点方案-ClkLog埋点用户分析系统

DNS服务器地址大全

【赵渝强老师】在Docker中运行达梦数据库