原创 Andreas、Mark 开源社KAIYUANSHE

【深入探讨人工智能】网络研讨系列总共有 17 个视频。我们按照视频内容,大致上分成了 3 个大类:

1. 人工智能的开放、风险与挑战(4 篇)

2. 人工智能的治理(总共 12 篇),其中分成了几个子类:

a. 人工智能的治理框架(3 篇)

b. 人工智能的数据治理(4 篇)

c. 人工智能的许可证(4 篇)

d. 人工智能的法案(1 篇)

3. 炉边对谈-谁在构建开源人工智能? 

今天发布的是第一个类别“人工智能的开放、风险与挑战”里的第三个视频:【开放 ChatGPT - 人工智能开放性运作的案例研究】。

我们期盼如此分类,对读者的易读性有帮助,也欢迎读者们的反馈和指正。

                   --- 开源社.国际接轨组 ---

欢迎来到另一个由开源促进会主办的深入探讨人工智能网络研讨会。我是 Stefano Maffulli 执行董事,我们将从 Andreas Liesenfeld 和 Mark Dingemanse 那里听到开放 ChatGPT:人工智能开放性运作的案例研究。希望你喜欢。最后我们会回答大家的问题。

我是 Andreas Liesenfeld,我将和 Mark Dingemanse 一起展示我们的合作作品。我们在荷兰拉德堡德大学的语言研究中心工作。今天我要讲的是开放 ChatGPT 项目 - 在人工智能中实现开放性的案例研究。这个想法源于我们作为欧洲学者的一个非常实际的担忧,欧洲学术界对开源软件的支持很大。例如,在德国,开源软件将成为公共机构的规范,也是国家数字化战略的基石。在法国,开源已被视为最近开源政策中科学研究的关键组成部分。在荷兰,国家数字化战略推行默认开源原则,敦促公务员尽可能地使用开源软件。

因此,当大型语言模型和文本生成器通过 ChatGPT 的发布而广为人知时,促使欧洲迫切需要确定一种这种类型且足够开放的技术,可以用于科学和教育。开放 ChatGPT 项目的第一个问题是,我们看到 “开源” 大型语言模型层出不穷,但它们到底有多开放?对于需要最大限度地开放和负责任的技术的用例来说,哪一个是正确的选择?在我们最近发表的论文中,我们提出了对指令调优文本生成器开放性的调查结果,发布了一个众包实时跟踪器,试图在这个快速发展的领域即时关注几乎每隔一天就会有新的所谓 ChatGPT 开放式替代品发布。

那么,您如何调查类似 ChatGPT 的文本生成器的开放性呢? 首先要注意的是,在复杂的 AI 系统中,开放性从来不是全有或全无。单是要对开放性做出判断,需要考虑的变化因素太多。我们需要将系统分解成各个部分,分解为最相关的构成要素,并首先将其分为三大领域,代码和数据的可用性,系统的文档化程度以及用户访问的选项。然后在这些区域内,我们进一步将系统分解为其元素。类似 ChatGPT 的文本生成器,至少包含以下 14 个特性。虽然这份不完全清单上的具体项目可能会引起争论或者可能取决于系统的具体配置。

无论如何,这样的列表都应该涵盖文本生成器的所有部分,在此,对开放性的循证判断是可行的。直接跳到结果。如果你拿这 14 个特征逐一检查每个系统,就会得到一张大表。目前这个数据库包含了大约 25 个系统的信息,包括 ChatGPT 本身,与类似的可用系统相比,它的开放性相当低。现在,我要从这个大表格中选取两个例子,然后和你谈谈它们在开放性方面的比较。

它们都声称是开源的,但根据我们基于证据的衡量标准,只有一个系统在我们的排名中名列前茅。第一个是 BLOOM,由法国政府支持的一项倡议。这个项目汇集了来自 100 多个机构的研究人员,历时一年创建一个非常大的语言模型。我们比较的另一个例子是最近也上了头条的模型: Meta 的 Llama2。Meta 自己将其介绍为 “我们的开源大型语言模型” 全球媒体的报道几乎无一例外,都接过了这一资格。正如我们将展示的那样,我们的方法提供了一种对 “免责声明” 的真实性和实用性进行循证判断的方法。以 BLOOM 和 Llama2 为例,介绍了这两个系统中开放性的相关维度。对于 BLOOM,我们特别关注模型的指令调优变体,称为 BLOOM(z)。

对于 Llama2,我们研究了三种类似的指令调优模型,称为 Llama2-7B, 13B, 70B 我们从开放代码开始,即传统意义上的开放源代码,我们问模型和训练流程的源代码是否可用? 可以检查吗? 我们能不能看看引擎盖下面的情况,或者甚至修补一下? 对 BLOOM 来说,情况就是这样。对于 Llama 没有可用的源代码,没有共享代码来重现数据管理、训练、微调或模型评估步骤。因此 Llama2 被标记为红色,表示不开放,BLOOM 被标记为绿色,表示开放。

接下来,我们问预训练数据集,用以训练基础大语言模型的数据集,是文档化和可用的吗?再一次,BLOOM 通过了检测,而 Llama2 没通过,看看语言模型权重。然后我们问训练好的模型是否公开可用? 我们发现 BLOOM 通过了检测,而对于 Llama2,需要一个注册步骤,所以它是黄色的,表示部分开放。然后我们看看系统的强化学习部分,我们询问指令调优步骤中使用的数据集是否有文档记录和可用。我们还询问了指令调优的模型权重是否可取得。所以就这项技术来说,这是最终用户将参与模型训练的最终产品。

然后我们看看这些模型发布时所用的许可证,这是传统的 OSI 领域,所以我们使用现有的 OSI 对开源的定义来区分许可证。Llama 有 Meta 的社区许可证,但其并非 OSI 曾批准过的许可证。BLOOM 有两个相关的许可证。源代码是 Apache 2.0 许可证,它是 OSI 批准过的开源许可证,但该模型本身是在 Responsible AI (RAIL) 许可证下发布的。让我们仔细看看这些许可证,RAIL 许可证对 OSI 来说不算开放,因为它施加了限制,但它是无限的,或者是发布技术的最好和最负责任的方式。

RAIL许可证是开发者认真思考责任和义务的一个有意思的案例。对于这种可能造成实际伤害的技术,谁有责任防止不良用途?所以特定的用例可能会受到限制,例如,不要使用该技术来利用特定群体的漏洞。这样的限制有助于防止有害的应用 BLOOM 和 Llama 在他们的许可证中都涉及了此类有害用例。这种防止伤害的责任具体是如何处理的呢?这里有两段来自许可证的引言:Llama2 规定 - 您不得表示 Llama2 的输出是人为生成的;而 RAIL 声明的限制要严格得多 - 您不得在未明确声明文本为机器生成的情况下生成内容。

因此,这两个组织选择了不同的途径来处理标注模型输出结果的责任。现在回到比较,接下来,我们看看代码文档的水平。这不是关于数据或代码是否可获得的问题,而是关于代码库是否有足够详细的文档。对于 BLOOM,我们有一个完整的代码库,有维护地很好,并且非常深入的文档。相反地,Llama2 只分享了一些最基本的例子。然后我们看看系统架构的文档,这包括从硬件需求、到模型如何训练、微调或评估的信息。

对于 BLOOM,这些都有详细的文档。至于 Llama2,一些内容已在一份公司预印本中披露了概述。说到预印本,开放的另一个重要方面是该系统的公共科学文献的范围。我们问是否有提供该系统科学而全面的文档预印本?我们也查找同行评议的论文,发现它们似乎在这个领域已经过时了。

接下来的两项是关于模型卡和数据表是否可用,这两种方法都是现有的标准化程序,可确保提供有关数据和模型设计的相关信息。最后,我们来看一下终端用户访问方法,并询问软件包是否被编入索引,并通过软件仓库来提供。我们要看是否有最大限度不受限制访问的应用程序接口 (API) 。像这样的详细比较表明,虽然两个系统都声称是开源的,但其实只有一个是开源的。通过深入研究细节,我们可以看到确切的差异。至关重要的是,基于证据的判断,有助于对在开发和发布此类人工智能技术时所采取的谨慎措施给予肯定,但也要戳穿企业的炒作,并指出对 “开源” 等术语的劫持。

在调查了大约 25 个这样的文本生成器后,我们发现在很多情况下,新系统要么从现有系统中继承数据,要么以复杂的方式组合现有数据集,这使得我们很难描述在哪里使用了什么数据集,这可能会导致数据集的许可证和一般使用方面的法律问题。

我们还发现人工合成数据呈上升趋势,这是从其他大型语言模型中获取的数据。目前,我们研究的系统中约有 40% 以某种形式使用合成数据,其法律和实际后果仍不得而知。另一个广受欢迎的做法是透过博客来发布,亦即组织在那里共享有关架构和性能的详细信息,只能通过帖子或预印本,但通常没有足够的细节。

另一方面,同行评议的论文也是非常罕见的,这类技术的一个更普遍的特点是:这些人工智能系统是复杂的、多元的,它们由多步骤训练流程组成,通常以步骤为特征。比如训练一个基础模型,可能是一个微调步骤,也可能是 RLHF 组件,比如在 ChatGPT 类型的系统中。而这些漫长的训练流程构成了使系统尽可能开放的挑战。因此,当涉及到回溯训练步骤或甚至逆向工程这样一个系统时,训练流程的后期步骤可能会阻碍对早期部分的访问。

至关重要的是,真正的开放只有在中间步骤被记录和开放的情况下才有可能。因此,真正的开放性,需要给训练过程中的每一个这样的障碍提供资源,以最大限度地保留逆向工程能力。

总之,我们评估开放性的方法是:首先,在各自的系统中分离出最相关的开放维度,然后在每个维度上提供基于证据的判断,并在公众场合进行这项工作,开放供大家参与审查。任何开放生成式 AI 系统的定义,需要将开放定义为复合的和分级的。没有放之四海而皆准的解决方案,因为需要领域知识来确定开放的相关维度。只有这样,我们相信逆向工程能力的精神才能延续到新一代的技术中。谢谢您的关注!

如有问题或意见,请在 opening-up-chatgpt.io 找到我们的联系方式。

Mark Dingemanse

Associate Professor, Centre for Language Studies, Radboud University

Andreas Liesenfeld

Assistant Professor, Centre for Language Studies, Radboud University

作者丨Andreas Liesenfeld、Mark Dingemanse

翻译 | 李华根

审校 | 刘文涛

视频 | 陈玄

策划 | 李思颖、罗蕊艳
编辑丨王梦玉

相关阅读 | Related Reading

【Deep Dive: AI Webinar】自由与开源软件和人工智能的意识形态:“开放”对于平台和黑盒子系统意味着什么?

【Deep Dive: AI Webinar】预防生成式人工智能的风险

【深入探讨人工智能】网络研讨系列介绍

【探索 AI+开源的未来:Open Source Congress@日内瓦】

开源社简介

开源社(英文名称为“KAIYUANSHE”)成立于 2014 年,是由志愿贡献于开源事业的个人志愿者,依 “贡献、共识、共治” 原则所组成的开源社区。开源社始终维持 “厂商中立、公益、非营利” 的理念,以 “立足中国、贡献全球,推动开源成为新时代的生活方式” 为愿景,以 “开源治理、国际接轨、社区发展、项目孵化” 为使命,旨在共创健康可持续发展的开源生态体系。

开源社积极与支持开源的社区、高校、企业以及政府相关单位紧密合作,同时也是全球开源协议认证组织 - OSI 在中国的首个成员。

自2016年起连续举办中国开源年会(COSCon),持续发布《中国开源年度报告》,联合发起了“中国开源先锋榜”、“中国开源码力榜”等,在海内外产生了广泛的影响力。


开源社
1 声望1 粉丝

开源社成立于 2014 年,是由志愿贡献于开源事业的个人成员,依 “贡献、共识、共治” 原则所组成,始终维持厂商中立、公益、非营利的特点,是最早以 “开源治理、国际接轨、社区发展、开源项目” 为使命的开源社区联...