「实战系列」GP+Roaringbitmap，亿级会员十万级标签毫秒级查询

阅读 2 分钟

0

获得Greenplum更多干货内容，欢迎前往Greenplum中文社区网站

在大数据处理和应用场景中经常需要从亿级甚至十亿级会员中搜索出符合特定标签的会员。很多企业都会使用 HBase 或者 Hive + Hadoop 的方式，这样的方式查询效率非常慢，在标签非常多的情况下计算，更是让人无法忍受。这里我们介绍一种 Greenplum + Roaringbitmap 的组合使用方案，亿级甚至十亿级会员_万级标签_的条件下查询毫秒级出结果。

业务系统的场景图如下。

数据从业务系统经过处理后流进 OLAP 分析平台，OLAP 平台的底层支持就是使用 Greenplum + Roaringbitmap。 Greenplum 是一个分布式大数据平台数据库，基于 MPP 架构的模式来达到快速分析效果的。关于 Greenplum 的官方介绍：About the Greenplum Architecture（
http://gpdb.docs.pivotal.io/5..._guide/intro/arch_overview.html ）。

Roaringbitmap 是压缩的 bitmap 的一种实现，参考文档：
RoaringBitmap/RoaringBitmap（
https://github.com/RoaringBit... ）。

如何实现？

具体实现参照如下步骤：

实验硬件配置：

Master 1 台,
Segment Host 2 台, 3 Segments 每台Host
CPU: 2.40GHz 32 cores
Memory:128G
Disk: SATA 1T

用户表schema：

用户标签表schema:

2亿会员数据导入GP，耗时60s

GP分区影响：分区后查询效率提升 5-10 倍。

创建用户标签表：

初始化标签：耗时分钟级别。

查询效率：

对会员表使用 count 查询，耗时 8 s ，使用 Roaringbitmap 查询，耗时 100 毫秒

占用空间：平均一个标签包含客户数500万，占用空间12M ，10万标签总存储空间 10M * 12M = 120G

关于存储空间，将2亿会员全部设定为一个标签，查询该标签后，存储需要25M左右。

感谢阿里德哥，Talkingdata的Zeromax 提供的文档和源代码。

该实现是基于以上两位给出的方案和源代码修改而来，如果完全照搬digoal/blog这里提的方案，在聚合查询时，Greenplum会有一些问题。

关于作者

周长跃，目前就职于深见网络高级技术总监，之前在华为和腾讯工作很多年。

参考文档：

digoal/blog（https://github.com/digoal/blo..._01.md）
zeromax007/gpdb-roaringbitmap（https://github.com/zeromax007...）

!

greenplum 数据查询 bitmap 数据库经验

本文系转载，阅读原文

https://zhuanlan.zhihu.com/p/55934827

阅读 3.1k更新于 2020-08-27

Greenplum

156 声望70 粉丝

Greenplum 是全球领先的开源、多云大数据分析平台，被广泛运用于大规模商业智能和分析中，具有极高的稳定性。

« 上一篇

【用户实测HTAP性能】Greenplum OLAP 完胜TiDB和CockroachDB，OLTP性能优异

下一篇 »

「揭秘GP」Greenplum新一代数据迁移工具gpcopy，更快更稳更易用

引用和评论

推荐阅读

基于Greenplum构建下一代数据分析平台

Greenplum阅读 2.5k评论 1

MySQL慢查询日志：性能优化的终极指南

晚上不吃饭赞 2阅读 417

做到真正0丢失、0重复：Apache SeaTunnel 实现万亿级数据一致性全解密

SeaTunnel赞 1阅读 873

Devin 发布 DeepWiki，2 星的项目直接装出万星的气场

Bytebase赞 1阅读 509

好用的开源埋点方案-ClkLog埋点用户分析系统

clklog阅读 1.5k

DNS服务器地址大全

云轻雨细阅读 1.4k

实战分享：DolphinScheduler 中 Shell 任务环境变量最佳配置方式

海豚调度赞 1阅读 350

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。