以下文章来源于极客公园 ,作者宛辰、凌梓郡
[
极客公园 .
用极客视角,追踪你最不可错过的科技圈。欢迎同步关注极客公园视频号👇
](#)
开源模型与闭源模型,正成为两股并行的力量。
从2月份 Meta 发布的 Llama,到3月份斯坦福大学微调 Llama 后发布的 Alpaca,再到5月份出现的 Falcon,世界各地的开源模型在「内卷」中快速进步。
7月18日,Llama2的出现,更是直接让大模型的竞争格局变天了。开源模型作为大模型领域的「地板」,Llama2开源且有条件地开放了商业使用后,很多「水平有限」的大模型还没商用,就已过时。「接下来,会有一大批人用自己的数据训练这个模型,从 Bert、到Llama系列,每一个强大的基座模型被放到开源社区后,都会有一大波寒武纪生命大爆发的现象。」
见过「历史」的尹一峰(Hugging Face 工程师)认为,「模型每天都在变化,随时会被更新掉,但是建立很好的数据集,能让你接下来很长一段时间受用。」
然而,一个不常被讨论和关注的事实是:「现在开源社区用的数据都是 ChatGPT 对话的数据」,RWKV 罗璇说,「这是很大的问题,数据不会开源,而开源社区应该更关注数据的建立」。
数据的瓶颈一旦被破除,开源社区可以发挥极佳的组织优势,在大模型能力上接近甚至超过闭源大模型。比如,在 AI 编程场景,开源遥遥领先。对于开源社区而言,没有明显的编程数据劣势,很多超越了闭源模型在 AI 编程场景的质量。
另一方面,开源模型,企业客户用起来放心。相比闭源大模型的黑箱,「透明化的文章都出来了,代码也发出来了,用起来你放心,知道里面有什么」。像 Llama2这样的开源模型,公布了训练数据、方法、标注等细节。
7月23日,在极客公园主办的 AGI Playground 大会上,来自 Hugging Face、RWKV、Stability AI 等几家知名开源大模型公司的从业者,分享了在这波 AI 浪潮中,开源模型的优势,以及未来的发展趋势。
本场圆桌嘉宾简介(从左到右依次为):
- 陈昱:云启资本 合伙人,圆桌主持人。云启长期关注 AI 技术发展和产业迭代,在早期领投了 PingCAP、Ziliiz、Jina AI、RisingWave、TabbyML 等开源公司和大模型公司 MiniMax。
- 刘聪:BentoML 亚太区负责人。BentoML 为开发者和企业提供构建部署和扩展 AI 应用程序的能力,其开源项目已经有上千家海外公司在使用。
- 罗璇:RWKV、Syrius 炬星 联合创始人。RWKV 是一个开源大模型,开源可商用,其最大特点是,采用了一种新的模型架构,计算效率远比 Transformer 更高。同时,RWKV 也是全球的开发者社区,在 Github 上有两百多个项目。
- 尹一峰:Hugging Face 机器学习工程师。Hugging Face 是一个专门针对机器学习的开源平台和社区。
- 郑屹州:Stability AI 技术产品总监。Stability AI 主要做开源的基础模型,其中最为熟知的是 Stable Diffusion。
- 张萌:TabbyML 创始人。TabbyML 的业务是做开源 AI coding 助理的解决方案。
陈昱:无论是 RWKV,还是Stable Diffusion,都有自己的开源模型。大厂像 Meta 上周刚发布了 Llama2。怎么看开源模型或者开放模型这件事情?它会不会对 OpenAI 或者 Google 的闭源模型带来一些冲击?
刘聪:我们是帮助大模型上线的一家公司,最近海外客户的需求变化很快,从一开始 Llama-based,然后 Falcon-based,最近很多客户又让我们帮忙上线 Llama2。
我们感觉开源的模型能力变得越来越好,但还是限于私有化部署以及商业公司内部的一些用例。普适化的用例可能还是依赖 OpenAI 这种大模型的能力。
罗璇:为什么 OpenAI 不开源,我之前也问过陆奇老师这个问题,他是担心开源会导致一些人把它用到坏的地方。闭源有可能更安全,但是我们认为,闭源是闭不住的,因为实际没有门槛,现在 Llama 也开源了更好的模型。开源可能是真正让大家都能够普惠地用到未来 AI 技术的方向。
我们开源的初衷也很简单,我们认为 OpenAI 的闭源违背了它的初衷,所以我们从2020年开始开源,也得到了像 Stability AI 和 Hugging Face 的支持。
其实现在很多商业公司也开始开源,但实际上是把一些效果比较差的模型开源,真正好的模型并不会开源,而且数据不会开源,数据是大家要关注的问题。现在大家开源社区用的数据都是 ChatGPT 对话的数据,这个是很大的问题。我认为开源社区应该更关注数据的建立,也希望所有的开源社区一起做这个事情。
尹一峰:从当年的 BERT 到 Llama,Falcon 到现在的 Llama2,每一次有这么强大的基础模型之后,都会有一大批人用自己的数据去微调这个模型,导致每一次有这么一个强大的基座模型被放到开源社区之后,就会有一大波寒武纪生命大爆发一样的现象。这个现象被命名为「The Llama Moment」。
第一,这一定会对 OpenAI 和大厂产生影响,因为开源在不断在能力上接近闭源大模型。而且开源最大的优势是透明化的,文章都写出来了,代码也发出来了,用起来你放心,知道里面有什么。但是闭源的大模型有些事情你不敢相信。
第二,其实最重要的东西还是数据,因为 Llama1 出来之后你去微调它一下,Llama2出来你再去微调它一下,其实可以用同一批数据。模型这个东西每一天都在变化,时不时就会被更新掉,但是建立一个很好的数据集,能让你接下来很长一段时间受用。
郑屹州:我从两个角度看这个东西。首先,基础模型可以看成生产工具,这个生产工具到底在谁的手里,在不同的人手里会有什么不同的效果。
如果在大公司,作为闭源的基础模型,让大量的人使用生产工具自己发展,这样会让这个生产工具变得更高效,比如我们现在看到的 GPT-4。这样的模型会持续存在,并且对于很多直接 C 端的应用、或者不是特别 critical(严肃的)的应用非常有意义,这种比较好的性能也是大家会永远追求的东西。
开源模型是公有的生产工具,大家都拿到自己的手里,它相对比较分散,没有那么集中的资源,大家在上面做各种各样不同的事情,用力的方向也不太一样。好处是生态会变得特别繁荣,这种繁荣的生态里可以看到很多不同的东西。
模型在这个时代不单单是生产工具,它可以是你表达的渠道,是你思想的反映。如果是闭源模型,那这个模型不属于你,而开源可以让你用属于自己的模型。不管 Stable Diffusion,创造者用他自己的画风定制模型,做符合自己表达习惯的模型,还是像文本,我把我的思想,我之前的聊天记录,各种各样的信息喂到这个模型里。因为这个模型属于我,我不用担心数据所有权的问题,也不担心自己的想法会不会泄露出去,在这上面定制的一个模型是自己思想的反映。
想象一个全闭源的世界,如果你不拥有自己的模型,当未来真的走到了 AGI 时代,你怎么拥有自己的思想,怎么拥有自己能够 embody(象征)自己的一个模型呢?
张萌:现在开源模型和闭源模型在质量上有差异,但 AI 编程这个场景非常有意思。它是少数社区视角或者研究机构视角,在面对大厂像 OpenAI 或者 Google 这样的超级研究机构时,没有显著的数据劣势(的场景)。这也是为什么过去3到6个月里,除了常规的语言模型之外,coding 场景在社区层面发展得非常快,像 CodeGen2.5、WizardCoder、Phi-1这样的模型都纷纷其实超越了这几个闭源模型在 coding 这个场景上的质量。
这是(我们公司)TabbyML 为什么在第一天就决定做开源很重要的原因,当这个生态相对多元,或者模型本身快速被变成标品。我们预期未来生态会比较多元,大家作为开发者工具部署的时候会有很多种选项。而且开发者场景里,开源本身就是在商业化获客角度非常理想的选项。在未来,尤其是 coding 这个场景,因为下游的用例太多种多样了,所以我们相信它会是一个开源模型主导,闭源模型很难追得上的状态。
陈昱:AI开源这个东西也是过去一年才火热的,大家有没有印象特别深刻的项目或者标志性的事件?
刘聪:标志性事件比较重要的是,当 Falcon 最开始发布的时候要收你10%的 royalty(使用费)。他说他是一个开源模型,但收你10%的 royalty。最后社区和公众对这个事情的反应很大,Falcon 最后又把这个东西去掉,完全改成 apache 兼容的 license。但是最近 Llama2发布之后,license 里有一个商用条款,但是大家好像都没有再讨论这个事情,因为在他的条款里明确表示——如果你的月活超过7亿,你需要再找 Facebook 要 grant(授权),而且他没有具体写出这个 grant 到底是什么,我觉得这是开源社区需要急需解决的,大模型的开源 license。
另外一方面,我发现近期很多开源社区目标越来越明确,这是非常好的事情。在开源的生态,跟闭源的商业生态如果要做竞争,目标明确、路径明确以及执行力强,这是非常重要的事情。
尹一峰:最近最火的项目就是 Llama2,但是在 Llama2这方面能看到一个趋势,现在在 70B 左右的模型已经在很多方面能跟 175B 的 OpenAI 的闭源模型可以拼一拼,这应该是一个趋势。
首先,OpenAI 的模型2021年就训练完了,有很多这两年出现的新技术、新架构他没有加进去。第二,像 Llama 这样的模型有这几年的技术经验积累,可以让一个小的模型做到之前大的模型才可以做到的事情。我觉得之后的趋势:可能强大到一定程度的模型,比如100分的模型,可能从 70B 降到 50B 也可以做到100分,最后可能 13B 也可以做到100分,最后模型越做越小,硬件越做越强大,很快就可以做到端了,等它到了端上之后 To C 的应用就可以做起来了。这也是我目前看到在商业化上面,在模型技术上面的趋势。
郑屹州:我现在观察到的一个非常有意思的现象是从 Stable Diffusion 开始,开源社区的参与者的 profile(背景)发生了变化。之前的开源社区参与者,特别是 ML(机器学习)相关的开源社区参与者,大多应该都是 ML Engineer 或者是工程师,非常非常技术导向的人。
但 SD(Stable Diffusion)可能是一个爆发点,开源社区的参与者里开始出现:大量以兴趣为驱动的人和很多草根研究者,有很多本身不是 ML(机器学习)领域但有一定研究能力的人进来。这样丰富的社区就开始涌现,比如刚才提到端上的部署,Llama.cpp、ExLlama,这些全都是开源社区自己做出来的。当社区开始变得更跨界,社区的范围变得更广,是现在 AGI 时代或者走向 AGI 的时代里面,看到的一个比较有趣的 pattern。
张萌:我们作为语言模型的应用层,特别关注的一点就是开源大语言模型的 serving layer(服务部署层)。我分享两个我们比较关注的项目,一个是 Hugging Face 的 text generation inference,它现在是一个工程化非常好,支持、可观测性都做得非常完善的项目,我觉得已经接近于现在开源大语言模型 serving 的实施标准,它关注度也非常高。
另外有一个比较新一点的叫 vllm.ai,是伯克利的 Sky Computing Lab 在做的项目。让人惊讶的是他们应该也是打算在全方位竞争 serving layer,他们的特点是通过内存分页应用到 attention 的想法,去更容易的做 continuous patching,更容易去做吞吐量的提升。我们希望这些 serving layer 竞争的格局能够比较良性竞争,我们在应用层的角度就可以得到更好的开发者体验。
陈昱:刚才大家提到了很多商业化的点,在大模型时代,如果真正要做好商业化,前提是什么?有什么好的商业模式?以及作为一个开源公司,内部怎么平衡自己的商业化版本和开源版本?
BentoML 有一个开源的框架,可以帮助开发者构建 AI 应用,帮助大模型上线。我们商业化产品也在上个月进行了发布,和云平台有一个非常好的合作。用开源框架构建 AI 应用之后,部署到云平台,我们帮助你做服务(serving) 和规模化 (Scale)。这样的模式对于我们小公司会更友善一些,因为我们可以和云平台共享客户的收益。
回到最开始开源公司做商业化的问题,我们认为开源产品需要帮助开发者去解决非常棘手问题,也可以顺着这些功能和云平台做一些结合,这样可能会是一个比较好的发展路径。
罗璇:作为 RWKV,基底模型永远都会开源、免费可商用。我们也成立了商业公司,是整个开源生态的一部分,会去做垂类的一些优化。
尹一峰:现在大模型越做越小,也越做越强,可能到最后每个人都会想拥有自己的大模型。但问题是,在端上不一定有自己的硬件去跑模型。
有一个商业模式,就是我给你看一下我的模型有多么强大,你用我的这个模型,我帮你来 host,相当于 Infra as Service。Hugging Face 也在做这个事情,我们会帮你 host model,训练完了之后就挂在那里。这样的话,我们有模型,有数据库,然后也有 Infra,就是一条龙服务,不需要去别的地方了。
如果把大模型类比为当年的互联网,下一波创业就类似于当年的互联网+,互联网加上外卖就有了美团,加上购物以及有了淘宝。因为互联网是一个具有颠覆性的技术,可以颠覆外卖,也可以颠覆购物。我觉得现在有一个很尖锐的问题,就是我们要找到大模型它到底可以颠覆啥?如果大模型可以颠覆某一个行业的话,这里是可以出巨头的。如果找不到这个可以颠覆的东西,找到可以增量的东西,至少能挣到钱。
郑屹州:开源要做商业化的一个基础是什么?我会比较想说一件事情,是关于这个开源社区大家是否遵守游戏规则的这个问题。最近我们也有观察到一些 pattern,比如说我们的模型最终都会走到商业开源,但在商业开源之前可能会有一段 research 开放的时间,比如说现在大家见到的 SDXL 0.9这个版本,还目前是 research 开放,还没有开源,不能商业化。但已经有很多公司不管是国外还是国内,直接拿过来做商业化 API 等等,但这个模型其实并不 ready for 商业化的,这一系列的破坏规则的做法,可能会对整个开源的商业环境产生一定的破坏。
张萌:在开发者工具这个开源生态里,商业化是跑得比较通的一个模式。大家基本上根据席位、根据年付费,在海外是一个非常通顺的商业模式。对我们来说,比较核心的点在于怎么区分开源版和商业版功能的差别。TabbyML 本质上是给开发者提效的工具,那么我们在开源的这个 OpenCore 里,所有对开发者的提效包括补全、问答、一些简单的分析。这些功能都是被开源版本所覆盖,永久免费的一个能力。
在面对企业做商业化,面向 CTO 或者 Engineering Manager 的时候,我们会提供的你团队使用 Tabby 产品之后整体提效的状况,你的整个 workflow,用 language model 做完分析之后,告诉你每个 issue 花了多少时间卡在哪里,这样一些偏生产力协作和 insight 层面的能力,我们会把它作为一个商业版能力,去对企业客户进行额外的收费。
陈昱:大家怎么看开源社区在这一波AI开源创业中扮演的角色?
刘聪:开源是很重要的。现在不管是大模型,还是工具链都有很多新的项目出来。从我们创业公司的角度来说,我们没有足够的工程师能力覆盖到所有用例。举个例子,在我们社区里,对百川模型的支持就是社区开发者做的贡献。从开源大模型的角度来说,这个是非常重要的能力,需要比较透明的协作的方式做这个事情。从工具链的角度来说,在 Open MLL 上,是一个非常百花齐放的过程,很多人用不同的工具,做不同的功能。在开源协作的角度而言,会让这个生态变得发展更好,更 open,这样也会更易于后面的进展。
罗璇:RWKV 一直注重全球的开发者生态,一开始就是全球化的,born in Global。开发者为什么用 RWKV,为什么加入一个开源社区,初衷是非常简单的,觉得你这个项目有意思,有前景,值得投入。这是非常朴素的出发点。
尹一峰:我觉得开源社区应该是催化剂的作用。从0到1的工作,可能需要一帮特别聪明的大佬关起门来搞。但是从1到100的工作,扔给开源社区就很快。当时 Llama2 一出大家很惊艳,我们觉得这个模型肯定能在榜首上待几天。真的就只呆了几天就被超越了。
从另一种角度来说,哪怕你在做闭源的工作,开源社区对你也有很大的帮助,因为开源算是闭源的地板。假如公司 A 做了一个闭源的模型,跑出来一看比这个 Llama2 低了50分,你直接去 Hugging face 下载 Llama2。无论是从创新上,对商业化公司的影响上,都起到了一个加速的作用。所以哪怕开源社区现在商业化上多多少少都会面临一些问题,但是这个事情真的是值得去做的。
开源社区可以避免发生「局部最优化」的状况。Transformer 是不是局部最优,我们现在还没有答案;RNN 是不是下一个答案我们也不知道。但是现在因为开源社区的存在,会有多个枝干在做不同的探索,有意义的枝干上面都会形成一股力量,在这个枝干上面更好做发展。这是我看到开源社区在这个时代最大的意义,让技术多样,不至于陷入局部最优,最终卡死。
黏菌走迷宫|图片来源:Google
张萌:开源社区的存在,是开源项目从商业上的角度本质区别于其他所有商业模式的一个核心点。开源社区使得潜在用户,即使是不愿意付费的用户,都有机会变成一个社区的 contributor(贡献者),产生价值。
举一个例子,大家可能都做过国内互联网大厂的生意,国内互联网大厂基本是不太有付费意愿的客户群体,我们很难在他身上赚到钱。但是客观行为上,国内互联网大厂有技术能力,也有技术意愿去使用先进的开源生产力工具。
我们在策略上,从一开始就不指望从互联网大厂赚到钱,而是通过他们的使用,把他们 on board 进来,让他们作为社区的参与者,真正能够把 Tabby 这样产品在自己内部用起来,有机会成为这个社区的 contributor,然后从本质上就把这个商业模式的路拓宽了很多。
所以做开源商业化的时候,不得不去做的一个 engagement strategy 的判断就是,当一个客户显然不会付费的时候,我们的主要目标就是把它变成社区的 contributor。
陈昱:最后谈一个话题,大家都知道开源无国界,在座的嘉宾在做开源社区时都有全球化的目标,开源项目怎么做好全球化?中国和海外开源的氛围有什么不一样?
我其实很建议国内的开发者,或者创业者,从一开始就去做全球的开发者社区,而不是专注中文开发者社区。其实海外的开发者也想要用我们中国的创业者、基础设施开发者创建的基础软件,但是因为语言原因而错过,我觉得是非常可惜的。
罗璇:Stable Diffusion 开源以后,国内开源热情就非常高了。我觉得国内对开源是非常有热情的,只是过去没有一个很好的闭环或者产品,或者是生态上的商业。现在 RWKV 在国内开发者也很多,在国内 QQ 群开发者也超过一万人了。
尹一峰:做开源模型的人能很容易把模型放上去,下模型的人把它下下来,这样很容易形成社区。但是社区又有一些障碍和分界线。Stable Diffusion 开源后,之所以全世界都在用,很大程度上是因为图谁都能看得懂。
郑屹州:中国其实是开源社区特别重要的贡献者。举一个例子,Stable Diffusion 的 Dpmpp 采样算法是清华团队做的,这可以说是最重要的采样算法之一;而我们模型用的 Resnet 层来自微软亚研院的华人研究者。这些对于开源社区是非常核心的贡献。国内的开发者在做很多事情,因为语言的壁垒没有能够真的传到全球社区里面去;在语言模型上可能就更明显,因为模型底层的语言都不一样。
转载自丨极客公园
作者丨宛辰、凌梓郡
编辑丨邓子宜
相关阅读 | Related Reading
【Deep Dive: AI Webinar】开放 ChatGPT - 人工智能开放性运作的案例研究
【Deep Dive: AI Webinar】自由与开源软件和人工智能的意识形态:“开放”对于平台和黑盒子系统意味着什么?
开源社简介
开源社(英文名称为“KAIYUANSHE”)成立于 2014 年,是由志愿贡献于开源事业的个人志愿者,依 “贡献、共识、共治” 原则所组成的开源社区。开源社始终维持 “厂商中立、公益、非营利” 的理念,以 “立足中国、贡献全球,推动开源成为新时代的生活方式” 为愿景,以 “开源治理、国际接轨、社区发展、项目孵化” 为使命,旨在共创健康可持续发展的开源生态体系。
开源社积极与支持开源的社区、高校、企业以及政府相关单位紧密合作,同时也是全球开源协议认证组织 - OSI 在中国的首个成员。
自2016年起连续举办中国开源年会(COSCon),持续发布《中国开源年度报告》,联合发起了“中国开源先锋榜”、“中国开源码力榜”等,在海内外产生了广泛的影响力。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。