视频
https://www.bilibili.com/video/BV1PC4y1A73d/?aid=749019495&ci...
导读
如何利用生成式 AI 将数据湖等现有数据架构转化为业务优势?在本讲座中,我们将探讨全球数据组织的领导者最关心的问题,即如何才能最有效地将专有数据集用于独特的差异化生成式 AI 解决方案。从拥有生成式 AI 生产应用程序的亚马逊云科技客户了解如何通过相似检索增强生成 (RAG) 等技术将数据纳入预训练基础模型和自定义。参加本讲座,了解使用生成式 AI 应用程序的三个关键数据考虑因素,以及亚马逊云科技如何利用向下兼容工作法,从客户出发帮助解决这些挑战。
演讲精华
<font color = "grey">以下是小编为您整理的本次演讲的精华,共900字,阅读时间大约是4分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font>
亚马逊云科技的资深技术副总裁Mylon Thompson在一次演讲中强调了生成性人工智能如何利用从数据中学习的模式来创作出新的内容(如文本、图像、音频和视频),从而改变企业的运作方式。为了充分利用生成性AI以满足特定需求,企业不仅需要基于公共数据集进行训练的基础模型,还需要高质量的非公开数据。Thompson详细阐述了成功实施生成性AI的三个关键数据策略:提高整体数据质量,全面管理数据从原始状态到使用的整个生命周期,以及负责任且可审计的数据使用。
他指出,在最近的一项调查中,46%的首席数据官表示,改善数据质量是他们实施生成性AI的最大挑战之一。确实,模型的质量取决于它们所学的数据,因此使用精心挑选的高质量企业数据至关重要。同时,该调查中的93%的首席数据官表示,实施一个强大的端到端数据策略对于使生成性AI为其特定业务很好地工作至关重要。
此外,Thompson还解释了了一些基础模型(如Anthropic的Claude)是如何从存储在亚马逊S3中的大量数据中学习的。例如,Anthropic使用S3存储用于训练Claude的数百PB的训练数据和模型参数。包括文本和图像在内的各种数据类型使得这些模型能够在多个领域发展广泛的通用理解。对于大多数客户,他建议采用现有的基础模型并使用企业数据进行定制,而不是从头开始训练全新模型。
有三种主要技巧可以定制基础模型的响应:通过提示工程优化文本提示,使用检索增强生成(RAG)从知识源(如亚马逊S3)检索相关事实以扩充提示,以及通过微调在企业领域特定数据上重新训练模型。
RAG技术在处理不断变化的数据方面表现出色,如天气数据或库存水平。它允许模型根据最新的可用数据进行动态调整,而不需要进行全面的重新训练。例如,该系统可以根据上周的销售报告来调整其预测。相比之下,微调可以通过提供精心挑选的高质量样本数据,使模型专门针对企业的特定领域和风格进行调整。这需要精心准备数据以创建理想的训练数据集。
Bukovec强调,亚马逊云科技的服务,如S3、OpenSearch和PostgreSQL,有助于管理和存储生成性AI所需的各种形式的数据,从原始数据到嵌入。例如,客户可以使用提供语义搜索的组合向量和全文本的OpenSearch服务。PostgreSQL的PG向量扩展使得除了传统关系数据之外的向量存储和查询成为可能。亚马逊云科技还提供了诸如Amazon Kendra等服务,用于从各种数据源摄取并生成向量嵌入。
为了展示实际操作,Adobe Firefly和Sensei的副总裁Alexandre Costin与Bukovec共同登台。Costin解释说,Adobe通过在S3中存储的来自Adobe Stock市场的精选资产上训练模型,成功地推出了几个生成性AI产品。具体来说,Adobe使用各种语言模型来提高质量,从而在图像、插图和视频等多种模态上进行训练。通过将数据作为“产品”进行投资,Adobe能够快速实施生成性AI,为数千名创作者提供新功能。Costin特别指出,Photoshop中由Firefly驱动的生成填充功能的使用率现在已经超过了Photoshop历史上推出的任何其他功能的使用率的10倍,Firefly在2022年生成了超过40亿张图像。
接下来,Pinterest的数据工程副总裁Dave Burgess分享了一个实际案例,揭示了大型企业如何运用生成性人工智能优化其现有的亚马逊云计算技术数据架构。Pinterest在亚马逊S3数据湖中存储的数据量达到了惊人的1亿GB(艾字节)。通过应用大型语言模型的文本到SQL功能,Pinterest实现了分析生产力的显著提升,提高了40%。Burgress强调,提示工程和高质量数据相较于所使用的特定语言模型更为重要。他特别指出,在使用亚马逊云科技OpenSearch寻找最佳的表格和数据以用于SQL查询的过程中,文本到SQL的生成准确率高达97%。
Bukovec再次强调了Pinterest的经验,表明了在采用生成性AI时迅速取得进展的关键在于利用现有的亚马逊云计算技术数据架构,如S3数据湖。亚马逊云科技不断推出创新数据服务,以支持生成性AI开发者,例如最近提高了S3性能并新增了一个名为S3 Express的高性能S3存储类,以实现低延迟和高吞吐量。
负责任且可审计的数据治理是另一个核心议题。将现有数据的来源追踪扩展到为新产生的中间数据集(如生成性AI系统创建的嵌入式数据)变得至关重要。亚马逊云科技提供了诸如CloudTrail、DataZone和CloudWatch等服务的内置治理功能,以协助负责任地管理AI。例如,Bedrock通过CloudTrail记录模型调用量和数据源,以提高透明度。
总的来说,Bukovec重申了成功运用生成性AI的关键在于使用高质量的企业数据,并通过提示工程、RAG和微调等技术将其与基本模型相结合。亚马逊云科技的云服务提供了存储、管理和监督数据的能力,同时快速创新以满足生成性AI开发者的需求。然而,随着这一技术的飞速发展,负责任且可审计的数据使用依然至关重要。
下面是一些演讲现场的精彩瞬间:
每位现代企业都是数据驱动的企业,能够利用云端技术推动数字化转型。
据调查显示,接近半数的受访首席数据官认为,数据质量对于提高生成性AI模型的准确性和可靠性至关重要。
在Photoshop中,由AI驱动的生成填充功能已经得到了空前的客户采纳,如今已成为该软件历史上最受欢迎的功能之一。
亚马逊云科技已经开发了软件,以便高效地将训练数据流式传输至机器上,从而实现更快、更便宜的机器学习模型训练。
此外,亚马逊云科技还推出了一项新功能,通过提高计算和存储之间数据传输的速度来加速AI模型的训练。
亚马逊云科技具备强大的能力,能够像对待企业数据集一样严格地存储、保护和管理AI数据集,包括微调数据、嵌入和生成数据。
总结
在re:Invent上,亚马逊云科技进行了一次关于企业如何利用生成性人工智能(AI)发挥数据价值的演讲。演讲的核心观点是,尽管基础模型是在大量数据集上训练的,但企业可以通过使用自己高质量的业务数据来自动定制模型响应,从而实现更准确、更符合组织需求的结果。"
"演讲中强调了三种定制基础模型的关键方法。首先,提示工程通过优化输入模型的文本提示,以塑造更优的响应。其次,检索增强生成结合了企业的外部数据源(如数据库),以提供相关的背景信息。第三,微调通过对组织特定领域的数据进行进一步训练,使模型更加专业化。"
"演讲还通过一些实例展示了如何使用生成性AI处理数据。例如,Adobe将其创意资产市场作为其AI工具(如Photoshop的生成特性)的训练数据。Pinterest在其数据湖的基础上构建了文本到SQL的生成器,提高了分析效率40%。演讲还强调了负责任的数据治理,通过CloudTrail等服务监控模型使用情况,并使用S3访问点等工具控制访问权限。"
"总的来说,演讲的主要观点是,企业必须关注整理高质量的数据集,并通过提示工程、检索增强生成和微调等方法将它们与基础模型相结合。这样,企业可以定制适合自身需求的生成性AI,充分发挥自身的数据价值。
演讲原文
想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!
2023亚马逊云科技re:Invent全球大会 - 官方网站
点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!
点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!
即刻注册亚马逊云科技账户,开启云端之旅!
【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”
亚马逊云科技是谁?
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。