头图

 title=

导读 本文根据 Fabarta AI 算法专家邱道明在“2023中国数据与存储峰会”主题演讲整理而来。本文将围绕以下几部分来探讨:企业数据的演进、大语言模型相关概念、大语言模型企业场景应用的挑战、Fabarta 产品和解决方案、大语言模型企业场景应用案例。

01 企业数据技术的演进

数据技术演进过程

 title=

首先,我们来看企业数据技术的演进。这张图总结了过去几十年企业数据相关的技术演进过程。从最早的文件系统到现在的分布式图和向量,我们可以看到技术的不断创新和变革。最早出现的技术是计算机的文件系统,上世纪 60 年代开始出现数据库的概念,70 年代出现关系数据库,80 年代出现数据仓库的概念。90 年代进入到个人电脑时代,Excel 和 Access 成为个人数据管理的标准。2000 年之后互联网火爆,出现了云计算和大数据。2010 年移动互联网的兴起,出现了数据湖概念和云原生和分布式流处理,这些都是非常的热门技术。2020 年之后是分布式图和向量,目前应该是比较热的方向。

数据的发展趋势

 title=

这张图描述了未来几年全球数据发展的趋势,来源于 IDC 的统计和预测报告,蓝色代表结构化数据的总产量,紫色代表非结构化数据的总产量。从这个图中我们可以看到,今后几年全球数据总产量年增长率在 21%左右,这远超过 GDP 的增长,而且绝大部分是非结构化的数据,比如说文档、图片、语音、视频等等。中国数据产量在全球居于第二位,而且增长率也很高。对于企业来说,这意味着我们需要更好的技术和方法来挖掘海量而且多模态的数据。

02 大语言模型相关概念

人工智能的发展历程

 title=

我们再看目前人工智能相关的概念,这张图是人工智能将近 70 年的发展历程,先后经历了两次高峰和两次寒冬。自 1956 年人工智能概念在达特茅斯的技术会议上首次提出以来,该领域迅速蓬勃发展。当时人们普遍认为计算机可以解决人类所有问题,并出现了多层级神经网络架构。然而,十几年后,人们发现人工智能的能力实际上非常有限,可能只能解决一些非常简单的玩具问题。因此,当时的人工智能在互联网时代遭遇了第一次寒冬期。

到了上世纪 80 年代,专家系统出现了,它们能够实际帮助人们解决一些问题,使用了一些符号推理的语言,比如 Prolog。同时,日本推出了一个名为“五代机”的计划,旨在让计算机具备类似人类推理和解决生活中问题的能力。然而,几年后证明,整体上人工智能的进展仍然缓慢。其中包括“五代机”计划最终也以失败告终,将人工智能带入了第二次寒冬期。因此,直至 90 年代,若有人提及学习人工智能或神经网络,往往会引来他人的嘲笑,认为这条路不切实际或者没有前途。

直到 2000 年之后,随着互联网的发展,数据、算力和算法的高速增长,人工智能的发展才达到了前所未有的快速发展。其中的几个标志性事件。比如,在 2016 年,AlphaGo 战胜了围棋世界冠军;尤其是去年,OpenAI 发布了 ChatGPT 大语言模型,使得整个人工智能领域的热度达到了前所未有的高峰。我们认为这种情况出现的主要原因有三个:

首先,数据经历了爆炸式增长。 这种激增是由于互联网和物联网的高速发展,使得大量数据在互联网上积累。

第二个原因是计算能力的迅速增长,其增长呈指数级。 我们采用了 GPU 这种高度并行的处理架构,其性能几乎每两年翻倍甚至更多。

第三个方面则是算法的突破,特别是深度学习算法的进步。 在 2019 年,深度学习算法的三位研究专家获得了图灵奖,这是计算机领域中最高的奖项。

因此,我们认为这三个方面——从数据到算力再到算法的高速发展——促成了过去十几年人工智能领域的快速进步。

大语言模型简介

 title=

大语言模型是一种自回归的深度学习算法,通过大规模参数的训练和海量数据的学习,能够识别或生成文本及其他格式的内容。其基本原理是依据之前输入的字符或标记(token)来预测下一个字符。大语言模型具有一个重要的属性,即“规模法则”或称为“Scaling Law”,它有多种表述。我们这里描述的 Chinchilla 规模法则,来源于去年 Google 的论文中提出的观点,目前已被广泛地接受和认可。它认为大语言模型的性能表现,与其模型参数规模和训练数据集规模之间存在可预测的函数关系,并且没有上限限制。 他们提出的公式描述了这一关系。若有兴趣,可以查阅他们的论文以获取更多细节。

通俗地来讲,这意味着模型参数规模越大,需要的训练数据集规模也越大,而模型的表现也会更好。 而且当模型规模超过某个阈值时,将发生质的变化,即出现所谓的“智能涌现”现象。这意味着在小型模型中未曾出现的一些智能特征,在大模型中突然出现。上图显示了近年来模型规模的对数刻度情况。在去年,ChatGPT 的模型规模大约是 1000 多亿个参数,而今年的 GPT-4 已经达到了 1 万多亿个参数。据说明年推出的 GPT-5,规模可能会扩展到 10 万亿级别。

大语言模型的训练推理和发展趋势

 title=

大模型训练通常分为三个阶段:首先是预训练阶段,利用海量数据和大规模 GPU 运算,花费数月时间来建立一个基础模型;第二阶段是微调或称为对齐,这时会使用人工标注的高质量问答等数据来进一步训练模型;第三阶段称为人类反馈的强化学习,模型会被赋予人工打分的问答数据以生成一个奖励模型。接着,采用强化学习方法对大模型进行微调,最终得到我们自己的模型。在推理阶段,延时和吞吐量通常被视为关键指标,可以利用一些优化手段,比如 VLLM 或者量化等技术进行优化。

现在的发展趋势主要集中在三个方面。第一个趋势是智能体,即智能系统能够自主地使用工具,完成交给它的任务。第二个趋势是多模态,即系统能够理解和生成多种形式的内容,比如图片、视频和语音等。这包括对内容的生成理解,例如能够理解图片中的内容并作出相关回答。第三个趋势是通用人工智能(AGI)。 通用人工智能的定义是要在绝大多数有经济价值的任务上超越人类的高度自主系统,这些任务包括诸如驾驶等有经济价值的工作。实现 AGI 被认为是人类最终的目标之一,但一直以来一直被视为遥不可及的。最近两年大型模型的突破似乎为通往 AGI 的道路开辟了一条途径,似乎为我们找到了一条道路。虽然有些人可能会说,实现通用人工智能需要 10 年或者 20 年。但一旦达到这个目标状态,将会对人类的伦理将产生根本性的影响。

大语言模型在企业场景应用的问题

 title=

目前在实际应用中,我们在企业场景中遇到了很多挑战,其中一个是数据时效性的问题,比如最近发布的 GPT-4 Turbo 模型,它的训练数据截止到今年 4 月份。大模型面临的另一个问题是所谓的“模型幻觉”问题,由于模型的参数众多,在回答问题时,有时会编造出似乎非常正确的答案,即使是对于不懂的人来说,这种答案也会容易误导他们。这种情况下,模型可能会表现得似乎十分可信,但实际上是错误的。第三个问题是可解释性问题,由于模型参数的复杂性,目前无法对其进行数学上的全面解释。例如,无法清楚地解释模型中的部分神经元起到了什么作用。第四个问题是推理能力的不足,包括数学和逻辑推理能力相对较弱。

03 Fabarta——一家 AI 数据基础设施公司

我们作为一家 AI 数据基础设施公司,提供以数据为中心的 LLM 架构(Data-Centric LLM),通过图和向量融合的多模态智能引擎及低代码企业智能分析平台的复合产品,结合包括大模型在内的各种智能化技术,助力企业实现创新驱动的转型升级。Fabarta 构建以数据为中心的智能化应用架构,通过打造坚实的智能化时代数据基础设施,助力企业在智能化应用方面的创新落地。

 title=

在最底层,我们打造面向 AI 的数据基础设施——ArcNeural 多模态智能引擎,它包含图引擎、向量引擎、GPU 调度以及 AI 模型的推理加速和训练支持,支持图、向量和 AI 推理能力融合 ,提供记忆和推理能力,减少大模型幻觉;同时支持模糊知识向确定性知识的转换, 提供大模型时代的数据基础设施。

在上图中平台层左侧,是我们的 ArcFabric 多模态智能数据编织平台,基于图和大模型的智能化方式,让数据为 AI 做好准备(Data ready for AI )。我们着重于数据治理和数据盘点等功能,致力于将数据管理从传统治理向智能数据资产管理迈进。

在上图中平台层右侧,是对业务人员友好的Arcpolit 企业智能分析平台,基于多模态引擎能力,打造面向业务人员友好的企业智能平台,其中包括低代码分析平台。我们通过低代码方式将引擎的能力暴露给客户应用端。此外,还有一个大模型 AI 工作平台,可用于模型微调等功能。

总体而言,数据编织平台将数据导入我们的引擎进行处理、记忆和推理。企业智能分析平台则涉及数据消费的过程。作为一家初创公司,所有产品系统均由我们自主研发,并与国产软硬件进行绑定。对于大型模型所面临的问题,我们致力于寻找解决方案。例如,对于大型模型幻觉问题,我们通过增加确定性知识来补充和校验模型效果。我们还利用向量数据库中的本地知识来约束知识,并使用专业知识进行模型微调。针对数据时效性的问题,我们将本地知识整合到向量数据库中,让大型模型从中获得价值。此外,我们还运用图能力来增强召回、校验和补充。

04 大语言模型企业场景应用案例

大模型企业场景应用案例 1——制造业

下面这个制造业案例很有趣。在这个案例中,我们与一家大型信息设备制造企业合作,解决了他们设备管理系统中的一项核心问题:生产设备的报修工单流转。

 title=

在以前,当设备出现故障时,处理方式可能包括打电话或发短信给服务中心,然后由维修主管分派维修人员前去查看、分析和解决问题。然而,存在几个问题。首先,报账流程繁琐,需要填写大量表单。其次,维修人员的经验与故障匹配困难。第三,故障现象与原因难以快速判定。第四,维修经验难以积累和分享。

我们的解决方案是开发了一个手机 APP,通过语音汇报设备故障,然后我们的大语言模型理解语音数据,引导用户逐步输入信息,形成结构化工单,并作为资产沉淀。接着,根据工单信息结合图和向量推荐相应的维修工和操作流程。维修完成后,维修员通过语音发送维修总结,我们的大语言模型将其结构化并形成新的维修标准操作流程。我们还对设备工单的现象和原因进行建模,并提出改进建议。

结果显示,我们的解决方案大幅减少了填写成本,填报效率提升了 70%,知识沉淀增加了 80%,设备故障减少。 我们提供了推荐方案,减少了人工诊断成本。我们的自动对话系统使维修工能够实时获得服务,减少了人工服务和支持成本。

大模型企业场景应用案例 2——金融业

第二个案例涉及金融行业,我们合作的客户是一家商业银行。了解银行运作的人都知道,合规部门对于银行来说至关重要。该部门的员工需要了解数以万计的合规法规,包括刑法、商业银行法以及银监会规章等外部法规,同时也需要遵守银行内部制定的规章制度。他们还有一个重要需求,即确保内外部规定的一致性,以避免不一致的情况。

 title=

另一个需求是希望在合规问答过程中,能够关联到一些相关的行政处罚案例和司法判决。我们的解决方案包括以下几个步骤:首先,我们利用大语言模型构建了生成相关法规知识标签的系统,并以此为中心构建了一个法规知识图谱,储存在我们的图数据库中。此外,我们将法规条款存储在向量数据库中,并采用多种 Embedding 算法进行多路召回,结合图中的关系构建精准的合规回答。

另外,我们通过向量的相似性比较和大型模型的过滤,成功地实现了内外部规定的匹配。我们的解决方案显著提高了合规问答的准确率,至少比之前的老系统提高了 80%以上。 这种准确率提升也激发了员工对合规学习的积极性,进而降低了银行合规方面的风险。

大模型企业场景应用案例 3—— IT 业

第三个案例是我们在 IT 领域的案例,以我们 Fabarta 为例。我们的员工需要大量时间阅读内部专业技术文档和浩瀚的代码库。因此,我们希望能够有一个智能系统,能够检索这些内容并为员工提供准确的答案。

 title=

我们的解决方案可以看作是一个整体系统。首先,我们将私有数据,例如文档关系图、内部组织结构图和代码关系图进行转换,并存储到图数据库中。同时,我们对各种技术文档进行向量化处理,并存储到向量数据库中。代码库和提交日志也进行了向量化处理并存储到向量库中。最重要的是我们实现了一种类似 Agent 的机制,能够查询图和向量数据库。这些数据库是异构的多数据源,因此需要自主生成查询计划。

另一个亮点是我们支持多种格式,例如 PDF、Excel 等各种格式,能够处理表格和图片等内容。在我们的 IT 系统中,我们获得了一些显著的好处:员工的技术能力得到了提升,新员工的学习速度明显加快,员工的满意度也得到了提升

Fabarta Arc42 企业智能助手——演示 1

接下来,让我演示一下我们所称之为 Arc42 企业智能助手。

 title=

首先,我想演示的是我们如何利用图和向量的融合,来避免一些大型模型可能出现的幻觉问题。在上图左侧,如果仅使用向量召回的方法,假设我们提出一个问题,比如询问我们的 Fabarta v2.0 数据库是否包含区块链相关的功能。使用纯向量召回的方式,它可能会错误地回答说我们支持区块链相关的功能。这是因为在我们的代码库中存在一些关键字,例如 'block'等词汇,并且这些关键字可能导致大型模型产生幻觉,使其认为我们有这样的功能。

正确的实现方式是通过图和向量的融合来实现。 在上图右侧展示的结果中,您会看到它的回答更加准确,返回的结果会直接显示“我们实际上并没有这样的功能”。这是通过一个查询计划实现的,首先确定这是一个混合查询,然后从代码库中查询与区块链相关的代码提交,发现存在这样的提交,这是和左侧一样的原因由大模型幻觉引起的。接着,我们从文档库中搜索与区块链相关的文档,并且确实找到了。但随后发现这些文档是由销售部门的员工编写的,而非研发部门的员工。综合考虑这两个结果,我们得出结论:在研发部门并没有关于区块链设计的相关文档。尽管似乎存在区块链相关的代码提交,但在将这些信息提交给大模型后,大模型给出正确的回答,指出我们的数据库产品实际上没有与区块链相关的功能。这是一个正确的回答。因此,在这个过程中,我们使用了查询计划,并结合了图和向量的查询,从而避免了大型模型可能产生的幻觉。

Fabarta Arc42 企业智能助手——演示 2

让我们来看一下第二个演示,这个演示旨在展示我们如何结合图和向量,并利用大型模型的能力来生成精准的答案。

 title=

在这个演示中,我们提出一个问题,是关于我们的数据库 2.0 中与编译器相关的问题,在公司内应该向谁咨询。这里我们再次生成了一个查询计划,通过图和向量查询,我们在右侧查询了与编译器设计相关的代码提交,以及哪些员工负责这些代码提交。而在左侧,我们进行了与编译器设计相关的文档查询,找出了负责编写这类文档的员工。然后,将这两方面的结果综合,我们得出了一个名字,就是“乔 XX”。这个结论包括他的设计文档以及相关的代码提交记录。

我对“乔XX”并不熟悉,但把这个结果告诉了我们的 CTO,他很满意这个答案,因为这与他对团队成员的认知一致。因此,通过图和向量的融合,再结合大模型的能力,我们得到了一个非常精准的答案。

05 总结

让我们来总结一下今天的分享。首先,大型模型是一项颠覆性的技术,其发展非常迅速。目前整个行业都在向这个方向投入了大量资源,相信它在企业场景中有着广阔的应用前景。其次,Fabarta 提供的图和向量融合的 AI 基础设施,将帮助企业更好地应用先进的大模型技术。我的分享到此结束,感谢大家的聆听!

如对我们的产品或技术感兴趣,欢迎通过 business@fabarta.com与我们联系。也可以点击阅读原文,了解更多我们的产品与解决方案信息。


Fabarta
1 声望1 粉丝

Fabarta 致力于解决在大规模增长的多源异构数据环境下的图智能难题,帮助企业客户和业务合作伙伴更方便地在图智能分析平台上沉淀业务价值,整理和管理数据资产,帮助企业快速高效地构建图智能应用。