在企业数据分析实践中,数据湖查询性能不足是一个普遍性问题。为提升查询效率,大多数企业选择将数据迁移至数据仓库。这种方案虽然解决了性能问题,却增加了数据治理的复杂性和维护成本。本文将带大家探讨如何通过物化视图,让数据湖性能也能追平数仓,实现实时数据分析。
传统数据湖查询方案的弊端
弊端 1:预计算开发复杂
传统方案通过 Spark 等工具构建聚合表来加速查询。这要求数据工程师在应用开发前完整规划分层建模的 Pipeline,一定程度上增加了开发复杂度和时间成本。
弊端 2:资源效率低下
许多预先构建的表在实际分析流程中没有得到充分利用,造成计算资源和存储空间的浪费,延长项目开发周期的同时成本也随之增加。
弊端 3:用户体验欠佳
用户需要频繁调整 SQL 查询来指向包含预计算值的新表,由于缺乏对底层优化机制的了解,往往难以实现最优查询性能。
StarRocks 解决方案
StarRocks 自 2021 年就开始布局湖仓一体方案,在同类产品中率先探索数据湖查询加速技术。
2022 年,StarRocks 在 v2.4 版本中突破性地发布了异步物化视图功能,经过持续迭代优化,现已成为提升数据湖查询性能的核心技术。 目前,StarRocks 物化视图特性已在互联网、金融、零售等 300 多家企业的生产环境中得到验证。
1. 什么是物化视图?
物化视图是特殊的物理表,通过预计算存储查询结果集,实现查询加速。所有查询都可以针对原始数据运行,并且可以随时按需添加物化视图来优化查询性能,具备灵活性的同时,也避免了复杂计算逻辑的重复执行,从而大大缩短开发周期。
2. StarRocks 物化视图:自动查询改写,显著提升查询性能
StarRocks 核心优势在于查询自动优化能力:在执行查询时,StarRocks 的 CBO 优化器可以自动重写查询,可精准匹配最优物化视图,无需用户修改 SQL 就能提升性能。
StarRocks 物化视图支持对接 Hive、Hudi、Iceberg 和 Delta Lake 等主流数据源,这些物化视图也可以从混合源构建,并支持单表和多表查询。 无论是想快速了解关键指标的汇总情况,还是进行多数据源关联分析,又或是整合不同数据集进行综合查询时,都能够享受到更快的查询速度。
在 Lakehouse 大趋势下,物化视图具备其独特的价值。StarRocks 可以基于外部 Catalog 创建物化视图,这样一来,免去了以往复杂繁琐的 ETL 工作,企业能够高效整合利用数据湖和数仓中的数据。
携程基于 StarRocks 物化视图实现 10 倍性能提升
携程的统一报表平台 Artnova 支持集团各业务单元(如酒店、机票、商旅等)的报表需求,用户可自定义报表以获取关键业务数据。然而,复杂的 SQL 查询、庞大的底表数据和高并发请求给系统带来了挑战。用户常在整点发送邮件,导致系统同时处理上千个复杂 SQL,如何降低延迟、提高响应速度成为关键。
为解决这些技术难点,携程采用了数据透明加速策略,通过物化视图优化慢 SQL 查询,当出现慢查询时,平台只需分析 SQL 逻辑、创建合理的物化视图即可,避免大规模修改数仓结构。利用湖上直查、Data cache、向量化计算和 IO 合并等技术,携程实现了 7 倍以上的性能提升。
通过 Catalog+MV 方案,对特定慢查询创建物化视图,使得 StarRocks Hive 外表的报表平均提速达到 10 倍,兼容性高达 99%。 目前,超过 10 万查询已成功从 Trino 切换至 StarRocks Hive 外表,显著提升了数据处理效率。
点击查看更多物化视图案例:滴滴、携程、微信、某头部股份制银行
企业级能力升级:自动物化视图(Auto-MV)
在实际查询场景下,物化视图要求架构师深度结合业务和技术进行数仓分层设计,并优化物化视图 schema,对于部分企业来说门槛较高。作为 StarRocks 的商业化公司,镜舟科技在开源版本基础上推出自动物化视图(Auto-MV)功能,进一步增强了企业级特性。
Auto-MV 简化了数仓的分层设计,通过推荐的物化视图模式(MV schema),帮助用户构建更精简高效的数据架构。同时,Auto-MV 能有效简化 ETL 流程,通过物化视图自动完成数据拼接、宽表处理和聚合计算等操作,面向业务提供高效的数据服务。预计算机制实现查询加速,并能自动改写查询语句以利用已有的物化视图,业务方无感知加速。
此外,镜舟科技还提供了完整的监控和运维体系,支持灵活的多场景部署模式,充分满足企业级用户的各类需求。
了解最新的物化视图功能,可扫码咨询下方工作人员或前往镜舟官网,查看相关技术文档 。
扫码咨询
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。