湖仓融合的“最后一公里”：StarRocks 存算分离如何优化湖上实时分析？

随着数据量爆发式增长，企业数据架构正经历从传统数据仓库向现代数据湖仓一体化的转变。然而，传统数据湖虽然存储成本低，但分析性能不足；数据仓库虽然查询性能优异，但成本高昂且扩展性受限。湖仓融合面临“最后一公里”问题：如何在保证实时性、一致性的同时平衡成本？

一、湖仓融合（Lakehouse）的技术演进

湖仓融合的技术演进经历了从简单的数据迁移，到联邦查询，再到深度集成的过程。

现代数据湖格式如 Iceberg、Hudi、Paimon 等，通过提供事务支持、模式演化和时间旅行等特性，极大地增强了数据湖的能力。市场对湖仓融合的需求也主要体现在：降低存储成本、提高查询性能、简化架构和运维、实现数据一致性等方面。

StarRocks 通过与这些数据湖格式的深度集成，实现统一元数据管理与查询优化，为湖仓融合提供了技术基础。

二、StarRocks 存算分离架构：降本、提速、弹性

StarRocks 从存算一体到存算分离的技术演进，为更多企业提供了湖上实时分析的实践样本。

StarRocks 存算分离架构将计算资源与存储资源解耦，数据存储在对象存储（如 OSS）中，而计算节点可以根据业务需求灵活扩缩容。这种架构设计理念既保留了 StarRocks 高性能查询的优势，又解决了存储成本和弹性扩展的问题。

1. 降本增效：与传统架构相比，StarRocks 存算分离架构查询性能提升 10 倍以上，存储成本降低 70-80%。通过将数据存储在低成本的对象存储中，同时利用高效的计算节点进行查询处理，实现了性能与成本的最佳平衡。

2. 运维简化：相比传统 Hadoop 生态系统，StarRocks 存算分离架构大大简化了系统组件，仅包含 FE 和 BE 两个核心组件，加上一个外部对象存储服务。这种简化的架构极大地减轻了运维负担。

3. 实时性提升：从小时级到秒级的数据更新体验。StarRocks 3.X 版本开始，存算分离架构支持主键模型，通过简单的 update 语句，可以轻松实现数据的实时更新。

镜舟企业级能力，增强灵活性与适用性

作为 StarRocks 的主要贡献者，镜舟科技提供了多项企业级能力：

虚拟子数仓（Multi-Warehouse）：实现数据共享与计算资源隔离，根据企业需求为不同部门、地域或集群建立虚拟子数仓，简化架构同时提升性能；

自动物化视图（Auto MV）：智能推荐和管理物化视图，加速查询性能；

更安全的金融级保障：权限管控精细化，基于 RBAC 的权限模型实现行列权限控制，并具备主从容灾架构、数据加密、SQL 审计等安全功能；

自主可控国产化生态兼容：支持国产硬件服务器、操作系统，兼容主流国产芯片；

这些功能进一步增强了 StarRocks 在企业级环境中的灵活性和适用性，使其能够满足不同企业的多样化需求。

三、金融科技企业实践：10 倍提速、80%降本

某国内头部金融科技企业将原有 Hadoop 集群迁移至 StarRocks 存算分离架构，相比原有的大数据平台，数据查询性能有数倍提升，且大幅降低运维工作。

场景挑战

数据治理链路复杂：不同团队对数据的理解和处理存在差异，导致数据口径不一致；
ODS 层数据合并效率低：Hive 表缺乏主键更新功能，增量数据更新需要耗时两个多小时；
大数据量查询慢，产出时间长：底层存储切换到 OSS 后，Spark 批处理任务执行时间显著延长；
大数据集群稳定性差，维护成本高：集群组件繁多，需要频繁重启和维护；

实践收益

通过采用 StarRocks 存算分离架构，该金融科技企业收获以下实践成果：

性能提升：查询性能提升 10 倍以上，原来需要小时级别聚合的指标降低到秒级聚合；
支持主键模型：数据更新更实时，解决过去每天只能合并百万级增量数据的限制；
支持部分列更新：实现对单条数据或部分列的更新，大幅降低维护工作；

四、结语

StarRocks 存算分离架构通过统一元数据管理、实时数据更新、异步物化视图等技术，进一步实现数据湖的实时分析。

镜舟科技作为社区主要贡献团队，成功帮助 50 多家用户上线存算分离架构，包括芒果 TV、吉利汽车、腾讯音乐、OPPO 等，并进一步验证了存算分离架构在实际业务场景中的价值。该架构不仅降低了存储成本，提升了查询性能，还简化运维工作，为企业数据战略提供了新的选择。

湖仓融合的“最后一公里”：StarRocks 存算分离如何优化湖上实时分析？

一、湖仓融合（Lakehouse）的技术演进

二、StarRocks 存算分离架构：降本、提速、弹性

镜舟企业级能力，增强灵活性与适用性

三、金融科技企业实践：10 倍提速、80%降本

四、结语

镜舟科技

引用和评论

某全球领先网络解决方案提供商基于 Apache Doris 统一 Trino、Pinot、Iceberg、Kyuubi技术栈

SelectDB 实时分析性能突出，宝舵成本锐减与性能显著提升的双赢之旅

物化视图详解：数据库性能优化的利器

什么是模型上下文协议（MCP）？

从湖仓分离到湖仓一体，四川航空基于 SelectDB 的多源数据联邦分析实践

演讲实录 | MaxCompute 智能物化视图

对接日本金融市场数据全指南：K线、实时行情与IPO新股

湖仓融合的“最后一公里”：StarRocks 存算分离如何优化湖上实时分析？

一、湖仓融合（Lakehouse）的技术演进

二、StarRocks 存算分离架构：降本、提速、弹性

镜舟企业级能力，增强灵活性与适用性

三、金融科技企业实践：10 倍提速、80%降本

四、结语

镜舟科技

引用和评论

某全球领先网络解决方案提供商 基于 Apache Doris 统一 Trino、Pinot、Iceberg、Kyuubi技术栈

SelectDB 实时分析性能突出，宝舵成本锐减与性能显著提升的双赢之旅

物化视图详解：数据库性能优化的利器

什么是模型上下文协议（MCP）？

从湖仓分离到湖仓一体，四川航空基于 SelectDB 的多源数据联邦分析实践

演讲实录 | MaxCompute 智能物化视图

对接日本金融市场数据全指南：K线、实时行情与IPO新股

某全球领先网络解决方案提供商基于 Apache Doris 统一 Trino、Pinot、Iceberg、Kyuubi技术栈