PowerData

编者荐语:

来自PowerData徐振超同学的精彩文章!

以下文章来源于数据极客圈 ,作者徐振超

[

数据极客圈 .

一入大数据深似海?别怕!“数据极客圈” 就是你的救生圈,走对圈子跟对人,趣析数据、畅聊趋势,快进圈子!

](#)

一、我们为什么需要湖仓一体?

在大数据时代,企业的数据处理和分析需求愈发复杂多样。传统的数据仓库与数据湖架构,各有明显短板。 

数据仓库于 1990 年诞生,适合存储规范、结构化且信息密度高的数据,读取速度快。但它灵活性欠佳,面对多变的数据需求,调整架构和模型成本高昂,难以处理半结构化、非结构化数据。 

2011 年出现的数据湖,能低成本存储各类原始数据,如图像、视频、音频、半结构化和文本数据。然而,其缺乏有效结构,若治理不善,易变成数据沼泽,导致数据质量差、检索与分析效率低。 

随着企业数字化转型推进,既要对海量原始数据实时分析,又要确保数据规范与高性能查询。在此背景下,湖仓一体架构应运而生。它融合数据仓库的高性能、强管理能力和数据湖的灵活性,底层支持多种数据类型并存与共享,上层通过统一接口,同时满足实时查询和分析,极大便利企业数据治理,成为大数据领域的发展新趋势。

二、Doris 的湖仓一体有什么优势?

Doris 通过多源数据目录(Multi-Catalog)功能,支持了包括 Apache Hive、Apache Iceberg、Apache Hudi、Apache Paimon、LakeSoul、Elasticsearch、MySQL、Oracle、SQL Server 等主流数据湖、数据库的连接访问。以及可以通过 Apache Ranger 等进行统一的权限管理,具体架构如下:

1. 卓越的查询性能

Apache Doris 支持物化视图和向量化执行引擎,能够显著加速查询速度。在处理复杂的大数据量跑批任务时,相较于传统的 Hive 等系统优势明显。例如,Hive 面对亿级别的大表 Join 操作,往往需要花费 35 - 50 分钟,而 Apache Doris 在未经优化的初次跑批中耗时仅 7 分钟,经过基础优化后,可缩减至 40 秒 - 90 秒,查询速度提升近 30 倍。同时,Doris 还支持多种表模型以及 Rollup、BloomFilter、倒排索引等,进一步对查询性能进行加速,无论是离线跑批还是实时查询,都能快速响应,满足企业对高效数据分析的需求。

2. 统一数据分析入口

Doris 具备对各类异构数据源的查询与写入支持能力。它允许用户将这些外部数据源整合至 Doris 的元数据映射体系中,使得用户在通过 Doris 查询不同外部数据源时,能够获得一致的查询体验,如同操作单一数据源一般便捷,为企业构建起统一且高效的数据分析网关。

3. 端到端数据集成贯通

在数据集成方面,Doris 依托数据湖的数据源连接功能,能够以增量或全量方式,将多源数据同步至自身系统。同时,利用其强大的数据处理能力对数据进行深度加工。加工后的数据,一方面可直接通过 Doris 为外部提供查询服务;另一方面,借助 Doris 的数据导出功能,继续向下游输送全量或增量数据。如此一来,Doris 实现了上下游数据链路的无缝打通,涵盖数据同步、加工与处理等环节,大幅减少了对外部工具的依赖,构建起独立且完整的数据集成体系。

4. 构筑开放数据生态

传统数据仓库各自采用专属存储格式,用户使用时,需先将外部数据导入仓库方可查询,形成相对封闭的生态环境,仓库内数据难以被外部工具直接访问。企业在选用包括 Doris 在内的数仓产品时,常担忧数据被锁定,且缺乏便捷导出方式。而 Doris 通过融入湖仓一体生态,采用更为开放的数据格式,如 Parquet/ORC 进行数据存储,这些开源格式能被众多外部系统轻松访问。此外,Iceberg、Hudi 等提供的开放式元数据管理能力,无论元数据存储于 Doris 自身、Hive Meta store,还是其他统一元数据中心,均可通过对外公开 API 进行管理。

5. 活跃的社区支持

Apache Doris 拥有非常活跃的社区,技术团队解决问题的能力较强,版本迭代速度快。这意味着企业在使用 Doris 过程中遇到的问题能够得到及时解决,并且可以享受到不断更新的功能与优化,更好地满足业务发展过程中不断变化的需求,为企业的长期使用提供了有力保障。

三、Doris 的湖仓一体实际案例

网易游戏作为全球知名的游戏开发与发行商,旗下拥有众多爆款游戏,业务规模庞大,数据量呈指数级增长。其数据与平台服务部承担着为游戏运营及决策提供关键支持的重任,需满足各大业务场景对实时分析时效性的严苛要求,同时保障数据的快速写入与极速查询。

在传统架构下,网易游戏面临诸多困境。原有的离线数仓架构体系难以应对海量数据下的实时分析需求,数据处理效率低下,导致游戏运营决策滞后。不同业务线的数据分散存储,缺乏统一的管理与高效的整合机制,数据一致性与可用性受到严重影响。而且,随着业务拓展,数据量急剧攀升,传统架构在扩展性与成本控制方面的劣势愈发凸显。

传统架构图

传统架构图

经过全面且深入的产品调研,Apache Doris 以其卓越的性能与丰富的功能,与网易游戏技术中心的整体需求高度契合。在新架构搭建中,网易游戏采用了一系列创新举措。在查询入口层面,自研统一查询引擎 SmartSQL,借助 RBO、CBO 和 HBO 技术,实现对 Trino、Spark 和 Hive 的智能查询路由。这一引擎整合了多种查询能力,以单一组件替代先前架构中的多个组件,极大降低了用户的学习与使用成本,显著提升研发效率。

全新架构图

全新架构图

以网易游戏质量保障中心下属的大数据团队 QData 为例,该团队负责从质量角度出发,针对游戏产品生命周期中的支付、奖励、性能、登录等主题,为游戏提供实时监控、离线分析、报表等服务。在引入 Doris 前,数据处理效率低下,难以满足游戏性能优化与设备表现提升的需求。引入 Doris 后,对于规模适中的表,Kafka 数据直接导入 Doris,通过仓内 ETL 和物化视图实现数据聚合与查询加速。在 14 亿数据场景下,Bitmap 查询峰值占用的 Doris 内存从 54GB 骤降至 4.2GB,查询时间从 20 秒缩短至 2 秒以内,优化效果立竿见影。

如今,网易游戏基于 Apache Doris 的湖仓一体架构已颇具规模,拥有十多个集群,总节点数超百个,内部对接项目超上百个,日均查询量高达 500 万次以上。该架构成功打破数据边界,实现了数据的高效整合与实时分析,为游戏业务的创新与发展提供了坚实的数据支撑,助力网易游戏在激烈的市场竞争中保持领先地位。

往期推荐

[

](http://mp.weixin.qq.com/s?__b...

Doris BE节点下线卡住?快速排障技巧全攻略!

Doris 数据划分:分区与分桶策略全解析

Doris vs ClickHouse 企业级实时分析引擎怎么选?

Doris查询报错-230?别慌,教你几招秒解!

Doris Tablet 损坏如何应对?能恢复数据吗?

Doris的Stream Load那些事儿,你踩过哪些“坑”?

如何排查 Apache Doris 中 "Failed to commit txn" 导入失败问题?

Doris的Routine Load导入指南 

Doris 导入慢该如何排查和优化

Doris 建表与分区问题全解析

Doris Schema Change 常见问题分析

数据极客圈子介绍

圈子1

Apache Doris社区是目前国内最活跃的开源社区(之一)。Apache Doris(Apache 顶级项目) 聚集了世界全国各地的用户与开发人员,致力于打造一个内容完整、持续成长的互联网开发者学习生态圈! 

如果您对Apache Doris感兴趣,可以通过以下入口访问官方网站、社区论坛、GitHub和dev邮件组:

💡官网文档:https://doris.apache.org 

💡社区论坛:https://ask.selectdb.com 

💡GitHub:https://github.com/apache/doris 

💡dev邮件组:mailto:dev@doris.apache.org

      可以加作者微信(Faith\_xzc)直接进Doris官方社区群

圈子2

PowerData是由一群数据从业人员,因为热爱凝聚在一起,以开源精神为基础,组成的数据开源社区。

社区整理了一份每日一题汇总及社区分享PPT,内容涵盖大数据组件、编程语言、数据结构与算法、企业真实面试题等各个领域,帮助您提升自我,成功上岸。

可以加作者微信(Faith\_xzc)直接进PowrData官方社区群

叮咚✨ “数据极客圈” 向你敞开大门,走对圈子跟对人,行业大咖 “唠” 数据,实用锦囊天天有,就缺你咯!快快关注数据极客圈,共同成长!

图片


PowerData
1 声望6 粉丝

PowerData社区官方思否账号