以下文章来源于Apache Doris 补习班 ,作者苏奕嘉
[
Apache Doris 补习班 .
Apache Doris Active Contributor 和 SelectDB SA 来做的不定时更新,主打 Apache Doris 系列学习文章和相关信息、原理解析或者新特性使用教程,争取 All In 原创,欢迎投稿~
](#)
Apache Doris 简介
Apache Doris 是一个基于 MPP 架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。基于此,Apache Doris 能够较好的满足报表分析、即席查询、统一数仓构建、数据湖联邦查询加速等使用场景,用户可以在此之上构建用户行为分析、AB 实验平台、日志检索分析、用户画像分析、订单分析等应用。
img
Apache Doris 内核当前已具备大宽表查询、Join 查询、倒排索引查询、主键高并发查询、联邦查询等数据分析场景中最常用的查询能力,同时在各个查询场景中,查询性能均名列前茅,故此在数据分析领域中,Apache Doris 具备极强的竞争优势。
对一款数据库而言,查询性能往往不是衡量是否优秀的唯一指标,当性能满足绝大多数应用场景后,除性能外的上下游生态、产品易用度、社区繁荣度、学习成本高低、使用性价比等方面,都将是综合衡量一款数据库的诸多有效指标。
在上述方面,Apache Doris 社区投入了大量的精力和人力做了极为繁荣的生态环境,如上下游数据源接入及查询便捷性、官网的文档梳理更新与可读性、社区问题答疑支持力度、极简运维的高可用高可靠能力等,在几千家用户的共同努力和推动下,Apache Doris 当前已在 OLAP 赛道中具备极强的竞争力。
起源伊始
Apache Doris 最早源自于百度内部的 Palo 项目,起名为 Palo 的缘由,则为 Online Analytical Processing 简写的倒写,也就是从诞生第一天起,目标就非常明确要作为 OLAP 领域的一款数据分析仓库。
Apache Doris 的创始团队为百度内部大数据平台团队,而百度的大数据平台团队又是国内最早开始研究 Hadoop 大数据组件和大规模深度实践的领航团队。Apache Doris 的项目立项人为马如悦老师,在国内大数据领域的专家领域里,马如悦老师的影响力和知名度非常广泛,所以由这样一支铁军去打造的数据库,必定是为了解决百度内部当时在 Hadoop 体系里无法解决的业务应用的问题,那么 Doris 最早是为了解决什么棘手问题呢?
从 2010 年起,百度内部的广告报表业务体量已非常庞大,同时还在进一步高速发展,对广告主提供的查询分析平台每天早晨都要应对几十万广告主的高并发广告投放分析查询,这类面向终端用户的高并发报表查询场景,有很明显的几个服务端特征诉求:
- 1. 查询响应时长要短,需要秒级响应。
- 2. 涉及广告投放金融分析场景,对数据的严谨度非常高。
- 3. 整体服务有很明显的峰谷流量期,最高峰时需要几十万的 QPS。
- 4. 服务可持续性要求高,对外提供服务中断时长有严格要求。
- 5. 期望数据时效性能进一步提升,T+1 的时效性对广告投入成本控制粒度过于粗。
基于以上的特征诉求,Hadoop 体系已然无法满足业务端的要求,对组件进行进一步的研发和升级已是迫在眉睫的事,在此背景下,Apache Doris 的前身 —— 百度 Palo 正式立项研发,内部起名为凤巢报表系统。
从 2014 年开始,Palo 已在百度内部逐步接替诸多的分析型数据库,逐步做为大一统的数据分析平台,经过两三年的发展,Palo 在百度内部已成为了所有内部 BI 、报表、分析平台以及对外提供数据分析应用能力的大一统实时 MPP 数据仓库系统。它在百度内部为诸多业务线提供了非常具有竞争力的数据分析能力,服务了非常庞大的百度内部业务应用,在百度内部得到了高度的好评。
开源
2017年,百度聘请彼时微软四大业务部门负责人之一陆奇博士出任百度总裁,而陆奇博士对开源贡献是抱有着极其热切的态度。在陆奇博士履职期间,百度涌现了大量捐献给开源基金会的项目,而 Palo 项目即是其中之一。
2017年到2018年,在百度 Palo 团队与 Apache 基金会的友好沟通和合作下,百度 Palo 正式捐献给基金会孵化器,并改名为 Doris,并在此后四年,陆续发布了 0.X 系列孵化版本,最高至 0.15 的孵化版本。
在2018年至2021年的时间内,国内有实时报表分析查询诉求的互联网头部企业陆续在企业内部成立 Apache Doris 研发项目小组,如美团、京东、字节、腾讯、网易、知乎等。在不同企业内部,Apache Doris 的发展都有相似的一个态势 —— 逐步趋向打造一款实时、统一的数据分析平台为业务平台提供高效能、高价值和高可靠的服务。
在百度 Palo 团队与各大公司的社区共建下,Apache Doris 积累了很多头部大厂的实践经验,同时也将 Apache Doris 逐步打造为一款稳定可靠、性能优异的国产化 MPP 实时数据仓库,累计有超过三百家行业头部用户在生产中深度实践 Apache Doris 带来的成本缩减和性能提升。
极速发展
2022年1月,由原 Palo 团队原班人马联合创立的数据库研发企业 SelectDB 正式成立,这家企业从成立第一天就确立以全力推动 Apache Doris 产品和社区为第一要义,联合其他社区伙伴力主将 Apache Doris 打造为 OLAP 领域的工业界事实标准。
2022年6月,在 SelectDB 与社区伙伴的共同努力下,Apache Doris 顺利从 Apache 孵化器毕业,成为 Apache 基金会第 200 个顶级项目,并发布第一个一位数毕业版本 Apache Doris 1.0。
2022年10月,Apache Doris 参加由 ClickHouse 推出的性能天梯榜 ClickBench,在 SSB-Cold 榜单打榜到 Top1 的位置,并在未二次参与打榜的前提下,占据榜首四个月以上。
2023年1月,Apache Doris ASIA Summit 2022 线上召开,是首届 Apache Doris 年度峰会,邀请数十位行业大咖分享 Apache Doris 在不同行业的应用实践经验,线上数万人收看直播。
2023年9月,Apache Doris 推出第二个一位数版本 Apache Doris 2.0,该版本意味着 Apache Doris 的基本功能大框架已正式确定,经历了十年的 Apache Doris 数据库将全面焕新,迎来 CBO、Pipeline、倒排索引、行列混存、湖仓联邦、ETL/ELT 等一系列重磅特性,Apache Doris 的应用范围从实时分析场景全面进化至流批一体、湖仓一体、离在线一体的实时数仓场景。
2023年10月,Apache Doris ASIA Summit 2023 在京召开,线上直播有超过 10 万人观看,线下有近千同学现场围观,截止大会统计,全球已有超 4000 家企业在生产上深度使用 Apache Doris 作为解决方案的基石,使用企业是两年前的 10 倍以上,同时也已连续 11 个月领跑全球大数据组件活跃贡献者榜单榜首,单月活跃度已超越 Apache Spark 在 2015-2016 年度最活跃时期,累计贡献者已近 600 人,是当之无愧的当下大数据领域最活跃的大数据项目,没有之一。
Apache Doris 的故事,始于 2013 年,一路发展离不开百度与 SelectDB 及其他共建社区的各大公司和个人支持者的勠力同心,同时也离不开几千家企业用户与数万社区开发者的使用和支持共建,我作为从 2021 年参与到社区一路走到今日的深度参与者,心中有诸多感慨想与君分享,在此不多余赘述,希望在未来的时间里,我们与社区携手共进,一路同行,为打造一款纯国人自主研发的全球级实时数据仓库而共同加油!
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。