2025 Lakehouse 趋势全景展望：从技术演进到商业重构

1. 为什么湖仓正在成为企业数据架构的必选项？

越来越多的企业正在通过实时数据处理能力构建核心竞争力——用户期待APP精准捕捉需求并实时响应，企业员工追求业务系统的秒级反馈，这些场景背后是千亿级数据资产的敏捷调度。

据 IDC 预测，2025 年全球数据量将突破 175 ZB，非结构化数据占比超过 80%，到 2027 年全球数据生成量更将突破 300 ZB。

企业正迎来数据价值释放的黄金阶段，而湖仓（Lakehouse）成为其中的关键引擎：

多模态数据融合：随着AI应用深入，结构化、半结构化与非结构化数据的协同分析正创造新的业务场景。湖仓架构原生支持多源异构数据统一管理，让视频分析、文档解析等跨模态分析成为可能。
性价持续突破：采用存算分离架构（如 S3/OSS 对象存储），企业存储成本可降至传统数仓的10%，同时通过弹性计算资源调度，实现实时查询与批量处理的灵活成本控制。

湖仓架构（Lakehouse）正成为企业实现数据价值的战略性基础设施。

据资料统计，全球实时 Lakehouse 市场规模预计将从 2025 年的 2.85 亿美元增长到 2031 年的 12.41 亿美元，这些数据进一步印证了湖仓架构的战略价值。

通过开放表格式（Iceberg/Hudi/Paimon等），配合流批一体引擎（如Flink+StarRocks），企业可实现“One Data，All Analytics”，并以较低的成本获得PB级存储和亚秒级查询响应。

过去一年里，湖仓生态链条内工具快速发展壮大，逐渐带领体系走向成熟：

开放表格式统一：Snowflake 开源 Polaris Catalog、Databricks 收购 Tabular，推动 Iceberg 成为跨云数据湖事实标准；AWS S3 与 Azure Data Lake Storage 全面支持 Iceberg，云厂商“站队”开放生态。
元数据层竞争：Unity Catalog 与 Polaris Catalog 开源，标志着元数据管理从“私有协议”走向“开放协作”，企业可跨引擎统一管理权限、血缘与模型。

在数字化转型深水区，湖仓架构为企业提供了“弹性扩展-性能突出-成本可控”三重价值的解决方案。

2. Lakehouse 三大核心技术演进

存储层：统一数据源，低成本支撑全场景分析

存储层实现了“Single Source Of Truth”，支撑AI训练、BI分析等场景的统一存储与用数，避免了传统架构中数据流转产生的损耗，显著降低企业存储成本。

通过开放表格式，存储层支持的数据类型也从结构化扩展到 JSON 等半结构化数据，以及面向AI场景的视频、音频等非结构化数据。

另外，存储层还引入了主键索引、向量倒排索引等多级索引体系来提升数据访问效率，同时支持从批量操作到流式实时读写的多种处理模式，满足企业全方位数据需求。

计算引擎层：多元拓展，极致性价比

计算引擎层呈多元融合发展趋势，典型的如 Spark（批处理）、Flink（流处理）、StarRocks（实时分析）等引擎正在积极拓展自身功能便捷，打破传统细分界限，向统一引擎进化。

同时，引擎层更加注重性价比的提升，通过支持 ARM 架构、GPU 等新型硬件，以及引入全局缓存等创新机制，优化计算效率，在保持引擎专业特性的同时也有更高的资源利用率。

以 StarRocks 为例，作为查询引擎，性能和性价比仍是 StarRocks 优化重点，并将持续增强对湖生态支持，让原本需要多个引擎才能完成的任务用一个统一引擎完成，数据处理更便捷和智能：

提升性价比，提供更好的统计信息收集、索引和物化视图支持以提升性能。
跟进存储层新演进，支持半结构化类型、DELETE Vector 等实时场景优化功能。
实现完整的读写、DDL、存储过程、Table 迁移等功能。
开展数据存储优化工作，如 Compaction 服务和数据自动布局优化。

元数据层：从目录管理迈向数据智能

元数据层的管理范围已从传统的表、视图扩展到 AI 模型、特征、指标等多维度数据资产。通过提供统一的元数据服务，实现对不同计算引擎的无缝对接。在数据治理方面，元数据层也提供了全方位的权限管理、调度编排和数据血缘分析能力。

另外，元数据层也开始与 AI、BI 技术深度融合，支持数据资产的智能发现与管理。目前市场上 Unity Catalog、Gravitino 等解决方案都在积极完善产品能力，推动着元数据管理向更智能化方向发展。

3. 2025 年 4 大趋势预测

随着 Lakehouse 架构在 2024 年获得国际主流认可，2025 年将进入更深层次的发展阶段。基于对市场动态和用户实践的调研，我们认为接下来将有以下四大关键趋势：

趋势一：开放表格式（Iceberg）成为事实标准

随着越来越多企业选择将传统架构（如Hadoop、ClickHouse等）迁移到基于开放表格式的湖仓上来，全球市场的开放表格式呈现出“双轨并行”的竞争格局。

海外市场中，Apache Iceberg 凭借其成熟的生态系统和主流云厂商的支持，已确立主导地位，成为开放湖格式的事实标准。而在国内市场，Apache Paimon 则是一部分头部互联网企业的首要技术选择。

二者竞合关系类似于 Spark 与 Flink 的市场格局，两者将在不同场景下相互补充。值得注意的是，Paimon 也已支持生成 Iceberg 兼容的元数据，为用户提供更灵活的技术选择。

趋势二：接口标准化催生出模块化搭建湖仓的机会，更灵活、高性价比

随着开放标准的确立与生态成熟，模块化湖仓架构将获得更多企业（尤其是头部企业）认可。企业可以根据业务需求，通过存储、引擎、元数据的灵活组合，实现最优性价比。

这种转变的主要推动因素：

开放标准日益成熟，使组件之间的协作更加灵活
企业希望避免被单一供应商锁定，实现自由的技术选型
降本增效核心诉求，即更高的性价比

特别是有一定技术实力的头部企业，更倾向于通过灵活组合存储、计算引擎和元数据管理能力，构建最适合自身需求的数据架构，而非选择单一厂商的一体化解决方案。

趋势三：实时湖仓将成为国内企业升级的核心切入点

实时数据处理需求正从“T+1”和小时级向秒级分析演进，这使得实时湖仓成为企业数据架构升级的首选切入点。相比传统架构，实时湖仓方案具有两大优势：满足业务实时性要求和显著降低 TCO（总体拥有成本）。

凭借其出色的流批一体特性，Paimon 在实时场景中表现突出，正获得越来越多国内企业青睐， Paimon+StarRocks 的组合也成为企业实现实时湖仓的选择之一。

镜舟汇总和梳理了过去 1-2 年 StarRocks 在互联网、金融等行业的标杆案例，观察到湖仓技术在中国落地仍需经历三个阶段：

短期：企业会选择以实时湖仓为切入点，通过 Paimon+StarRocks 组合完成快速部署，以响应业务侧需求。同时这一阶段，存算分离将作为重点方案并行发展。
中期：随着生态系统逐步完善，开放湖格式将覆盖更多场景，企业会将选择近实时及部分离线业务迁移到湖仓上来，向统一数据存储与应用靠拢。
长期：传统数仓将逐步被湖仓替代，形成真正统一的 Lakehouse 架构，并支持将 AI 和数据分析场景深度融合，进一步实现数据智能。

趋势四：AI 原生 Lakehouse 成为新的基础设施

湖仓正在成为企业 AI 基础设施的重要组成部分。据毕马威人工智能报告显示，86%的海外企业计划统一其分析数据以支持 AI 开发。而在国内，这一趋势同样明显，诸如腾讯、Bilibili、小红书等头部互联网企业的湖仓架构均涉及了不同程度的 AI 应用。

AI 训练数据需求将推动更多企业从传统数仓迁移到 Lakehouse 架构，例如非结构化数据处理、向量检索等能力诉求。湖仓一体能够支持实时流处理与机器学习，满足模型训练需求。

这四大趋势相互影响、相互促进，共同推动着湖仓技术的演进。不过无论是否考虑选择湖仓架构，企业都需要对自身技术现状进行全面评估。

4. 企业数据平台选型建议

1. 当前企业现有架构评估

首先，企业需要分析当前的数据规模和增长趋势，判断是否面临存储成本过高的问题，是否对实时分析着迫切诉求，以此衡量现有架构对经营与效率产生的影响。其次，要评估现有技术栈的能力和局限性，包括查询性能瓶颈、运维复杂度、上下游拓展适配，以及对新兴 AI 应用的支持能力等。

同时，迁移成本也是一大考量因素。除了基础设施投入成本，还涉及技术、运维团队培训成本、业务中断风险等方面。

通过综合评估，企业能够更清晰地认识到湖仓架构是否真正适合自己，以及迁移方案。镜舟在此梳理了一份数据能力自测表，帮助企业更快速了解需求与现状，供参考。
>>点击进行数据能力自测<<

2. 技术选型分析与建议，因需施策

镜舟科技基于过去在湖仓领域的实践经验，梳理了不同业务需求下的技术选型方向，供企业参考：

注重实时分析

有此类场景需求的企业，可以优先关注 StarRocks+Paimon 的组合架构，这种方案不仅能够满足秒级查询需求，还能通过流批一体化处理提供更实时的数据洞察。

以饿了么为例，饿了么从离线数仓 + 实时的 Lamda 架构，升级到 Flink + Paimon + StarRocks Lakehouse 方案，支撑实时交易补贴自助分析、以及客户满意度服务大屏等场景。相比实时数仓，在增加 15% 查询延时下，减少约90%的存储成本，减少约50% Flink计算开销。

注重降本增效

以降本增效为主要目标的企业，选型时可以考虑存算分离架构配合智能缓存策略，成本优势显著，且性能接近存算一体。通过弹性的资源调度和完善的数据生命周期管理，企业可以在满足实时场景需求、保证性能的同时大幅降低运营成本。

注重 AI 应用拓展

开放湖格式（如 Iceberg）在这一场景下具备一定优势，它能够支持多引擎访问，满足不同 AI 训练场景的数据需求，同时通过统一的数据管理降低存储成本，这也解释了为什么越来越多的互联网企业开始将 AI 相关的数据迁移到湖仓架构。

湖仓架构下的数据平台最佳实践：小红书

架构升级不仅需要技术选型，更需要深入理解业务需求，并在实践中不断优化和调整。

小红书作为国内领先的互联网企业，通过采用 StarRocks + Iceberg 的湖仓架构，实现了显著的技术突破：

查询性能：P90 查询响应时间提升 3 倍，稳定在 10 秒以内
存储效率：相比原 ClickHouse 架构节省 50% 存储空间
数据治理：引入智能排序键选择机制，持续优化查询效率
架构灵活性：支持多种 Join 策略，提升数据自助分析能力

通过一系列创新性的技术方案，包括实现 DataCache 本地缓存、引入 Z-Order 智能排序、支持灵活的 Join 策略等，将 P90 查询响应时间提升了 3 倍。同时，通过数据跳过（Data Skipping）机制的优化，他们在存储效率上也取得了突破性进展，相比原架构节省了 50%的存储空间。
>> 点击此处了解案例详情

5. 结语

在数据要素价值化与AI爆发的双重驱动下，湖仓一体（Lakehouse）已从技术概念演进为支撑企业数字化转型的核心底座。建议企业关注三个重点方向：

1. 建立面向开放表格式的数据治理体系，通过Iceberg/Hudi/Paimon/Delta Lake等标准接口实现跨平台数据引用；
2. 将实时湖仓能力建设纳入战略优先级，借助StarRocks等实时引擎释放流式数据价值；
3. 在AI基础设施规划中，预留非结构化数据处理能力，构建支持多模态数据应用的未来架构。

作为开源项目 StarRocks 的主要贡献者，镜舟科技也凭借对其深度优化和全栈技术整合能力，将 StarRocks 的高性能 OLAP 引擎与现代湖仓架构相结合，助力企业以低成本、高 ROI 投入湖仓浪潮。

由 StarRocks 社区发起、镜舟科技专家团队深度编撰的指南《StarRocks Lakehouse 白皮书》，扫描二维码立即获取。

添加时备注“湖仓白皮书”

2025 Lakehouse 趋势全景展望：从技术演进到商业重构

1. 为什么湖仓正在成为企业数据架构的必选项？

2. Lakehouse 三大核心技术演进

存储层：统一数据源，低成本支撑全场景分析

计算引擎层：多元拓展，极致性价比

元数据层：从目录管理迈向数据智能

3. 2025 年 4 大趋势预测

趋势一：开放表格式（Iceberg）成为事实标准

趋势二：接口标准化催生出模块化搭建湖仓的机会，更灵活、高性价比

趋势三：实时湖仓将成为国内企业升级的核心切入点

趋势四：AI 原生 Lakehouse 成为新的基础设施

4. 企业数据平台选型建议

1. 当前企业现有架构评估

2. 技术选型分析与建议，因需施策

湖仓架构下的数据平台最佳实践：小红书

5. 结语

推荐阅读

镜舟科技

引用和评论

实时监控、秒级决策：镜舟科技如何重塑融资融券业务数据处理模式

基于 MCP 的 AI Agent 应用开发实践

OSPO Summit 2025 正式定档！议题征集同步开启

OSPO Summit 2025 首批议程发布！

强烈推荐|新手从搭建到二开TinyEngine低代码引擎

面对开源大模型浪潮，基础模型公司如何持续盈利？

Y 分钟速成 zfs