更多 LDP+AI 场景细节,敬请期待 5 月 10 日(今天)的 Tapdata 发布会。
最近几个月,AI 领域可谓经历了近十年以来最为魔幻且不可思议的时刻。
自 ChatGPT 发布以来,无论是底层大模型、训练框架、应用框架还是 GPT 插件等等各种新构想和产品层出不穷,为各行各业带来了深刻的变革和前所未有的机遇。
AI 大模型在面向通用知识的智能领域已经展现出强大的能力,其普适性和泛化能力开始被认可。越来越多的企业开始把目光投向了 AI 技术,而在这个领域中,高质量、可信赖的数据集是企业能否成功应用 AI 技术的关键。
对于企业而言,坐拥的大量丰富且独特的内部数据资源,无疑是 AI 模型训练的“天然养料”,能够为之提供更准确、个性化的训练素材,并从中获取独特的 AI 能力。如果能在这场浪潮中把握住自身数据资源的巨大潜力,抢占 AI 先机,这将对提升企业竞争力至关重要。
那么问题来了,企业该如何充分利用内部数据资源,为 AI 大模型提供更有价值的私有数据集?下面让我们一起结合几个简单的示例,来具体谈一谈。
一、抓住问题核心:孤岛旧患「缠身」,如何有效挖掘企业内部私有数据
遗憾的是,企业内部这些极具价值的私有数据通常分散在各种复杂的系统中,无论从技术角度还是安全角度,它们都很难在通用 AI 的训练阶段被采集到,这显然非常不利于企业的 AI 应用的落地。
长期以来困扰着企业的数据孤岛问题,再一次成为企业发展特色 AI 路上的一大阻碍。企业内部的数据分散在各个系统、部门和业务中,一方面是数据流转不畅,难以真正整合与共享;另一方面,没有一个统一的视图和标准,导致同一份数据被多个业务部门分别存储,数据重复、冗余,难以保证数据的质量和一致性。
因此,如何有效地整合并利用这些私有数据也成为当前的一个热点话题。
二、LDP 与 AI 的碰撞:企业数据集成、管理与服务在 AI 日常应用中的交叉点
事实上,Tapdata 也一直在持续挖掘人工智能这样的创新场景,而孤岛问题也恰恰是 LDP 攻破的重点方向,因此,二者的结合可谓顺其自然。
Tapdata LDP 的核心理念
信息化时代,企业内部收集大量业务数据,这些数据分散在各个数据源以内,如何高效地集成与管理这些数据也就成了企业迫切需要解决的问题。而 Tapdata LDP 实时数据集成与服务平台正是为了满足这些需求而诞生的。
LDP 的全称是 Live Data Platform,其中,Live 的含义为“实时的、新鲜的”,数据的实时准确正是其核心卖点,针对不同的数据类型,Tapdata 支持使用日志解析、轮询或者触发器等各种手段进行实时数据的采集。
Platform 则意味着 LDP 不仅仅是一个简单的数据传输工具,除了提供实时的数据通道之外,它还具备数据源信息的智能管理,针对不同数据类型的托管存储以及各种下游服务的对接能力。在下游服务对接方面,LDP 既可以将数据直接传输到各种各样的数据目标以内,还可以把数据发布为传统的数据 API 服务,或是将这些新鲜的数据提供到 AI 大模型服务中,为 AI 大模型提供企业私有数据的认知能力。下面我们将通过几个简单的例子来展现 LDP 将如何在 AI 应用中提供的这些能力。
+ AIChat:为企业私有 AI 对话模型供数
如上图所示,我们在 ChatGPT 对话模型中输入了3个问题,由于 AI 大模型具备一定的数学推理和计算能力,类似于“1+1等于几”这样的通用问题,处理起来没有压力。但另外两个与 Tapdata 相关的提问,给出的答案却和我们预期的结果相去甚远。
造成这个结果的原因有二,其一是海外的大模型服务,对中文资料的学习获取相对而言并不完善,会有很多内容缺失;再就是这几个问题还还涉及到了很多目前在公开网络上无法获取的内容,属于企业内的私有知识。
那么如何才能让 AI 对话服务实现我们想要的效果呢?
这就需要我们向对话模型提供企业私有数据集加以训练,比如公司内部的大量 wiki 资料中,就藏着这类问题的正确答案。
以飞书文档为例,Tapdata 支持以飞书文档作为源,获取其中的文本内容,读取内部 wiki 中的数据并处理后,即可按照目标接口要求把数据传输至 AIChat,一个基于 ChatGPT 的对话服务。在这个过程中,数据源和目标都是以插件形式为 LDP 提供支持的,开发者和用户可以按照自己的服务接口特征很快地开发属于自己的连接器。
于是,通过将飞书文档的内容以文本语料的形式提供给 AI 对话服务,通过 Tapdata LDP 的【数据目标和服务层】跳转到 AI 对话的服务界面,我们在这里成功实现了想要的 AI 问答效果:
Tapdata 在企业私有 AI 对话模型的训练场景下,具有以下三点优势:
- 数据的传输管道可以保持秒级的数据更新,用户资料变更时可以实时反馈到对话模型中;
- 支持下游对接各种服务,一键构建私有 AI 服务,成本非常低;
- 针对不同的数据来源,可以通过平台能力做统一管理,非常符合企业内部的使用模式。
由此可见,在 AI 对话模型这个相当火热的背景下,Tapdata 依然可以以实事数据集成和服务平台的角色,助力企业加速落地应用。
+ ChatBI:利用 AI 能力获取数据洞察
第二个例子是关于 AI 的数据洞察能力。
如上图所示,我们针对用户的数据,使用自然语言问了一个问题,即“客户的年龄分布是什么”。在不需要用户写任何专业 SQL 的前提下,直接给出了一个客户年龄分布的柱状图,这极大降低了用户在数据探索场景下对专业技能的要求。
下面以保险公司为背景, LDP+ChatBI 服务为例,来展示这个场景是如何落地的。类似于 AIChat,这里的 ChatBI 是一款智能问答报表服务,支持使用自然语言对数据进行探索。
仍然是通过 LDP 将 MySQL 源库中的保险理赔表作为源数据,同步到 ChatBI 服务中,再通过 Tapdata LDP 的【数据目标和服务层】跳转到服务界面,即可开启 AI 数据洞察之旅:
无论是想要寻找系统中客户保单金额最大的几条,还是想要知道系统中共有多少保单,都可以快速以图表的方式呈现出分析结果。
在当前的技术架构下,AI 大模型所具备的对于数据库领域的认知能力可以非常好地和传统数据库进行配合,从而有效降低数据探索的成本消耗。而Tapdata LDP 则可以将各种对数据有需要的下游 AI 服务集成到产品内部,支持多种智能分析下游服务,为用户提供应用便利。
LDP 智能数据治理
值得一提的是,Tapdata 连接各种各样的数据源之后,除了通过任务进行数据的流转和加工之外,如何管理和理解、对接这些数据源里的数据也越来越受到关注。不管作为数据资产完成沉淀和积累,还是进行再加工,对数据的准确标注都非常重要。
但事实是,程序员大多都不愿意给自己代码写注释,DBA 则更不会给自己的表结构做注解,数据库的名字、表名、字段名的缩写拼音五花八门,从这些结构中获取数据的业务含义往往并非易事。
Tapdata 在完成数据源对接之后,对加载的表结构,可以通过使用数据库、表、字段等名字,以及采样数据,进行综合分析,通过 AI 大模型的能力自动推断数据表的业务含义。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。