自 2022 年末 OpenAI 推出 ChatGPT 以来,AI 已成为各领域不可避免的话题,许多公司甚至一夜之间转型为 AI 公司,数据分析领域也不例外,如 Databricks、Snowflake 和 Elasticsearch 都将自己重新定义为 AI 数据平台或面向 AI 的数据分析和搜索产品。
在探讨 Lakehouse 与 AI 的关系之前,先以一个简单例子说明数据与 AI 的联系。
首次体验 Apache Doris MCP 服务器
- 什么是 MCP:Model Context Protocol (MCP)是 Anthropic 于 2024 年末提出的应用程序向大型语言模型(LLM)提供上下文的标准,被比作 AI 应用的 USB-C 接口,采用客户端-服务器架构,包括 MCP 客户端(如 Cursor、Claude Desktop、IDE 等)、MCP 服务器(通过标准化 MCP 协议提供特定功能接口的轻量级程序)和本地数据源及远程服务。截至 2025 年 2 月,已有超过 10 个工具集成了 MCP,社区贡献超过 1000 个 MCP 服务器。
- Apache Doris + MCP:Apache Doris 是开源分析数据库产品,Apache Doris MCP 服务器可访问 Doris 数据服务,通过它可让 LLM 直接访问和探索 Doris 中存储的数据。添加 Doris MCP 服务器需在 Cursor 设置页面填写相关信息,交互时可在“Chat”或“Composer”页面进行,能实现列出数据库、表、执行查询 SQL 等功能,还可丰富其功能以帮助诊断 Doris 集群运行问题。
Lakehouse:有何重要之处
- AI 时代的 Lakehouse:一是 Data Lake,其核心在于数据共享、多样工作负载和协作,能让不同计算引擎协同处理共享数据,无缝集成各种工具和平台,方便数据科学家和工程师处理数据,还支持多样数据格式存储,如存储非结构化和向量数据,以满足复杂场景需求。二是数据分析引擎,像 Apache Doris 在 AI 时代虽表面功能未变,但在高性能和并发处理能力方面,能使交互 AI 场景以可接受的用户体验实现,且通过 UDFs 可扩展更多能力,远程 UDF 进一步解耦“服务器端计算能力”和“客户端计算能力”。
- 开放数据 API 或开放数据格式:主流开放数据湖仓架构中,数据通常以开放数据格式呈现,如 Iceberg、Hudi 等,而以 BigQuery 和 Redshift 为代表的计算引擎或数据仓库系统通过开放数据 API 对外暴露存储数据。开放数据格式在开放性方面有优势,开放数据 API 在功能完整性方面表现更好,作为 AI 时代的数据分析引擎需同时支持两种开放标准,Apache Doris 就是先驱,既支持访问主流开放数据格式,也提供基于Apache Arrow Flight的开放数据 API。
本文以 MCP 服务器 + Doris 为起点,探讨了 Lakehouse 在 AI 时代在统一性、开放性、功能性和高性能方面如何支持 AI 应用,未来将继续讨论 Lakehouse 的更多特征及 Doris 等实时数据仓库和实时查询引擎的定位。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。