50亿海量数据如何高效存储和分析？ GaussDB (for Cassandra) 3个秘诀搞定

摘要：信息社会正在从互联网时代走向物联网时代，企业不可避免的要面对数据量剧增带来的一系列问题：如何高效存储和扩容，如何在对原有业务改动最小的情况下做到智能化和实时分析。

本文分享自华为云社区《50亿海量数据如何高效存储和分析？ GaussDB (for Cassandra) 3个秘诀搞定》，作者： Cassandra官方。

当下，信息社会正在从互联网时代走向物联网时代，信息交互变得更加庞杂、高效和智能。对于互联网公司和IOT企业来说，既是机遇，也是挑战。因为，企业不可避免的要面对数据量剧增带来的一系列问题：如何高效存储和扩容，如何在对原有业务改动最小的情况下做到智能化和实时分析。

针对挑战，华为云GaussDB (for Cassandra) 为客户提供了强扩展、高存储、高效导入/导出和实时分析等一系列能力，并成功服务了众多互联网公司和IOT企业，获得了客户的高度认可和支持。本文将以其中一个客户业务的痛点问题举例，聊聊高效存储和实时分析的3个秘诀。

海量存储，PB级无感扩展

该用户在线下本地化部署使用数据库或者使用其他的存储为云盘的数据库时，常常需要在容量达到阈值时，提前规划和申购存储资源，可能还需要连带扩容不必要的计算资源。而使用GaussDB (for Cassandra)之后，便再无此烦恼。GaussDB (for Cassandra)采用存算分离架构，可单独扩展存储，高效扩容，业务无感，最高可扩展到PB级。

此外，客户为了做大数据分析，将数据库中的数据再写入一份到HDFS中，供MapReduce和Spark分析，同时需要维护两套资源，维护和资源成本成为了痛点。而客户使用GaussDB (for Cassandra)之后，可以仅采用GaussDB (for Cassandra)即可完成数据库存储和对接大数据分析的功能，同时GaussDB (for Cassandra)提供了更为易用的CQL接口，让用户更加专注功能开发，而不是资源管理。

数据变更捕获和实时分析

客户的一个使用场景需要将爬虫或用户输入的数据，进行在线分析和实时推荐业务，该业务中全量数据达到了50亿条，但增量数据不足5亿，分析对象主要是每日新增数据。在这个场景中，GaussDB (for Cassandra)为客户提供了streaming服务+实时分析解决方案，在损失小部分读写性能的前提下，客户端无需改造即可做到数据读写和实时分析并行，解决方案如下图，该解决方案主要有以下几个阶段：

客户业务用过开源驱动写入数据到GaussDB (for Cassandra)
GaussDB (for Cassandra)对外提供streaming接口，该接口可获取数据变更捕获
客户构建的流服务组件读取streaming接口数据写入到指定的Kafka队列
Kafka 队列将streaming数据写入到Spark或者Flink中
客户在Spark中可对增量数据做分析，也可合并之后做全量分析

全量数据导出分析

客户的另一个业务需要周期性对全量数据进行分析和处理，但不想影响在线业务，希望在闲时处理。GaussDB (for Cassandra)提供了全量数据导出和分析解决方案，可在业务低峰期触发任务进行数据导出和冷数据分析，数据导出速率是开源的10+倍，同时做到对业务读写基本无影响。如下为互联网客户每周定期导出数据分析用户画像的解决方案，该方案有以下几个阶段：

客户根据需求配置ECS规格，并挂载obsfs并行文件系统
客户在DLF上配置导出作业，包括ECS信息，导出参数和定时任务
CDM下发作业任务
ECS上的导出任务将GaussDB (for Cassandra)中的指定表指定条件的数据导出到obsfs
Spark从obsfs中读取全量数据进行数据分析

通过这3个秘诀，华为云GaussDB (for Cassandra)完美解决了难扩展、高成本、变更不及时等问题，实现了海量数据的高效存储和实时分析，为互联网公司和IOT企业的数字化发展提供了更多可能。欲了解更多GaussDB (for Cassandra)详情信息，欢迎移步华为云官网。

本文作者：华为云高斯Cassandra团队

杭州西安深圳简历投递：zhaojuan.zhao@huawei.com

更多技术文章，请关注：高斯Cassandra官方博客

点击关注，第一时间了解华为云新鲜技术~

50亿海量数据如何高效存储和分析？ GaussDB (for Cassandra) 3个秘诀搞定

海量存储，PB级无感扩展

数据变更捕获和实时分析

全量数据导出分析

华为云开发者联盟

引用和评论

华为云开发者联盟入选 2023 中国技术品牌影响力企业榜，深耕开发者生态

分布式数据库解析

做到真正0丢失、0重复：Apache SeaTunnel 实现万亿级数据一致性全解密

在 Kubernetes 上用 KubeBlocks + Dify 快速构建生产级 AIGC 应用

数据库的下一场革命：S3 延迟已降至原先的 10%，云数据库架构该进化了

Ape-DTS：开源 DTS 工具，助力自建 MySQL、PostgreSQL 迁移上云

好用的开源埋点方案-ClkLog埋点用户分析系统