从技术架构角度,这波 AI 将深刻重塑整个软件生态系统。DSS 系统围绕人类决策逻辑设计,而 Agentic AI 时代,最终“消费者”更可能是代理。这将导致传统数据仓库和复杂 ETL 管道的彻底重新设计甚至淘汰。传统数据仓库强调结构和查询模式,将被注重语义和响应模式的 Agentic Data Stack 架构取代。
介绍:Snowflake CEO 变更背后的信号
2024 年春季,云数据仓库领域的明星 Snowflake 宣布领导层变更:谷歌广告业务前负责人 Sridhar Ramaswamy 接替传奇 CEO Frank Slootman,后者曾帮助 Snowflake 达到 600 亿美元估值。这并非简单的高管人事变动,而是数据仓库世界范式的悄然深刻转变。
技术演进并非线性,而是跳跃式的。从 OLTP 数据库到 MPP 数据仓库,从本地化 MPP 计算到矢量化云数据引擎,每个阶段都是向新一代技术的跨越,从一种主导产品到另一种。Slootman 代表了“数据仓库黄金时代”,他押注云原生、多租户架构,将 Snowflake 定位为下一代数据平台的中心枢纽,其领导下的 Snowflake 直接颠覆了作者的第一家雇主 Teradata,后者市值从 102 亿美元暴跌至 20 亿美元。他卸任时,Snowflake 官方博客的关键词转向:AI 优先、代理驱动、语义导向的数据架构。
同时,硅谷最具前瞻性的风险投资家押注“Agentic AI”新概念,在新范式中,AI 不仅是模型,更是能感知、行动、设定目标和协作的代理。
问题是:当 AI 不再只是“聊天工具”,而是能感知业务变化、理解意图和执行行动的智能代理时,为人类设计的传统数据仓库还能满足代理的需求吗?数据仓库如今面临沦为代理“数据素材库”的风险,甚至“素材”一词也失去价值,因为 Agentic Data Stack 可直接访问原始数据并以语义 + 数据格式提供给上层销售代理、风险代理等,而传统仓库中多余的非语义数据留给 BI 工具和数据工程师使用。真正的危险不是被淘汰,而是仍按旧规则行事而世界已改变。
这并非贬低数据仓库,而是科技历史的循环。正如 Hadoop 和 Iceberg 曾重塑数据湖格局,Agentic AI 正在重写企业大数据架构。
1970 - 2024:数据仓库架构的演进
1970 年:数据仓库之父 Bill Inmon
Bill Inmon 首次提出 EDW(企业数据仓库)概念,为未来半个世纪的企业数据架构奠定基础。作者 20 多年前在北京大学受唐世伟教授指导学习并参与翻译《构建数据仓库》第一版,书中对主题域、数据分层架构和缓慢变化维度(历史表)的描述从上个世纪延续至今,成为数据仓库的基础概念。
1983 年:Teradata 诞生:MPP 架构登场
1983 年 Teradata 公司成立,在接下来 30 年主导企业数据仓库基础设施,作者毕业后第一份工作就在此。Teradata 首次将 MPP(大规模并行处理)架构引入数据系统,其紧密集成的软硬件和基于 Bynet 的 MPP 设计在大规模数据处理和复杂 SQL 查询方面远超 Oracle 和 DB2。
1996 年:Kimball 提出“雪花模式”;OLAP 引擎出现
Ralph Kimball 继 Bill Inmon 之后提出“数据集市”概念,用星型模式和雪花模式重新定义数据建模,此后几十年数据架构师不断争论是构建集中式数据仓库还是先构建数据集市,“维度建模”和“雪花模式”成为数据工程师的名片。在 BI 层,Hyperion Essbase 和 Cognos 等 MOLAP 引擎开始出现,OLAP 技术终于有了系统的方法可循。几十年后,新一代数据仓库公司甚至以“Snowflake”为品牌名称。
2013 年:大数据热潮 - Hadoop 席卷全球
2006 年 Apache Hadoop 发布,企业开始广泛采用存储成本低的大数据系统,Viktor Mayer-Schönberger 在《大数据:一场将改变我们生活、工作和思维方式的革命》中用“4Vs”定义大数据:容量、速度、多样性和价值,标志着大数据平台建设浪潮的开始。接下来 10 年,新一代大数据技术出现,如 Apache Hadoop、Hive、Spark、Kafka、DolphinScheduler、SeaTunnel、Iceberg 等,大数据平台开始动摇传统数据仓库的主导地位,2015 年后大多数处理 PB 级数据存储的中国企业不再使用传统 MPP 数据仓库架构,而是使用 Hadoop 或基于 Iceberg 的大数据/数据湖架构。
2015 年:Snowflake 崭露头角,现代数据栈兴起
随着云的兴起和 Marcin Zukowski 关于“矢量化”引擎的论文发布,Snowflake 以分离计算和存储的云原生架构出现,完全颠覆传统数据仓库思维,BI 工程师首次可享受按需弹性扩展,无需担心集群调度或资源分配,将“数据仓库”变成“数据云”,引发新一代数据仓库技术栈的兴起,如 Fivetran、Dagster、Airbyte、DBT 和 WhaleStudio 等,催生了硅谷的“现代数据栈”趋势,上一代 ETL 和数据工程工具起源于 20 世纪 80 年代,新技术的兴起需要全新的生态系统。
总体而言,过去几十年,无论是传统数据仓库、大数据平台、云数据仓库还是数据湖,其架构本质上都遵循以下图表所示结构:在 Inmon 时代,此架构称为 DSS 系统,整个数据仓库技术栈是为人类用户设计的,数据仓库架构也是为数据工程师设计的,有多个主题域、原子层、聚合层和指标层以协助 ETL 工程师开发,BI 工具也需要定义星型和雪花模式,有用于报告和仪表板的拖放界面,所有消费者都是人类。但在大型模型代理时代,这一切都将发生巨大变化。
代理正在吞噬传统数据仓库吗?!
2022 年底 OpenAI 发布 ChatGPT,开启大型语言模型时代,2023 年许多大型语言模型迅速发展,AI 不仅是语言模型,更是能理解和为复杂任务做决策的“通用智能引擎”,2024 年 RAG 技术成为主流,工具广泛应用,AI 开始整合企业领域知识,成为真正的“知识助手”,2025 年代理架构全面兴起,技术和协议出现,AI 成为“数字员工”,在数据领域,大型模型的到来也带来重大颠覆,如 ChatGPT 的 Data Analyst 可帮助业务用户生成详细分析报告,替代初级数据分析师,各层出现许多“自动化”工具,未来将有更多代理出现,AI 将不再是“被动回答工具”,而是“主动实现目标的智能代理”,过去 20 多年数据平台的“用户”通常是数据工程师、分析师和 BI 专业人员,未来每个角色都可能被代理重新定义,如营销人员有 Campaign Agent,客服有 Support Agent 等,SQL、报告和运营会议都将成为代理触发的行动、语义命令和自动化响应,但现实是如果数据的最终用户是代理,甚至数据仓库开发也由代理完成,原 DSS 数据仓库架构是否还合理?当数据仓库的用户从人类变为代理,Bill Inmon 设想的 DSS 架构不再适用,传统数据仓库注重结构和查询,代理架构注重语义和响应,谁理解业务语言谁将统治数据世界。
Agentic Data Stack 和上下文数据单元(CDU):带有内置语义的数据
为让代理自动开发和使用数据,当前数据仓库设计不合适,内部存储的是“原始”数据,语义存储在单独系统,不友好于依赖语义推理的大型模型和代理,若为代理和大型模型重新设计数据存储系统,应将数据和语义存储在一起,即上下文数据单元(CDU),将传统存储在数据目录中的信息直接融入每个数据条目中,减少代理或大型模型访问时的查找时间和错误率,CDU 的语义源自业务系统,在摄入时形成,流入 Agentic Data Lake,数据治理和沿袭嵌入代理驱动的开发过程中,避免冲突和歧义。
在 Agentic AI 时代,从 ETL 到存储到数据应用的每个环节都将重塑,因为消费者是代理和模型,传统数据平台必须演变为可被代理调用、具有语义感知和事件驱动的架构 - Agentic Data Stack,包括语义协调器(交互层)、数据网格(存储层)、数据流代理(处理层)等,在 Agentic AI 时代,构建数据平台的周期将大幅缩短,新数据由数据流代理发现并预存储在数据网格中,由语义协调器用业务对齐的定义进行解释,实现从业务需求到数据输出的“即时计算”,LLM 提供算力,代理是手脚,Agentic Data Stack 为大型模型时代的代理提供数据访问能力,随着 Agentic Data Stack 的兴起,构建下一代“数据仓库”的成本大幅下降,小企业和个人也能使用,如通过数据流代理将 Google Drive 文件、家庭 NAS、笔记本电脑上的 PDF 和手机应用订单捕获到个人数据存储中进行查询,Apache SeaTunnel MCP Server 已在向数据流代理发展,但仍有技术障碍需克服,LLM 和代理时代的到来将像 SQL 的发明一样重塑数据分析行业。
不要被“可见”的竞争对手打败,就像自行车市场被共享自行车颠覆一样,随着代理的兴起,一些我们曾经相信的核心产品路径可能失去意义,在执行的同时要关注未来。
结论:活在当下,预见未来
作者在 AICon、AWS Community Day 等科技峰会上分享此愿景时,观众分为两派,“信徒”认为 Agentic Data Stack 只需 5 年就能完全形成,“怀疑者”认为 AI 代理对数据仓库架构的影响被夸大,作者认为 Agentic Data Stack 的出现是不可避免的,这波 AI 将以不同于以往的方式影响软件架构,应从企业数据仓库建设和运营的总成本和结果来看,目前看到实时数据仓库的兴起、数据湖的扩展和现代仓库设计中层次的减少,传统建模本身也在迭代,作者只是指出 Agentic AI 时代更大的跨越,总体而言,Agentic Data Stack 的 ROI 可能超过当前的现代数据栈,不是 AI 取代你,而是知道如何使用 AI 的人,不是数据仓库被吞噬,而是其以结构和查询为中心的模型被以语义和响应为中心的架构取代,就像使用 GPS 后不会再用纸质地图,Agentic Data Stack 的大门正在打开,你准备好了吗?
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。