梅宏 Datawhale

 Datawhale干货 

作者:梅宏,中国科学院院士

2025年伊始,大语言模型DeepSeek在继2022年底ChatGPT带来人工智能(artificial intelligence,AI)的“现象级”应用之后,再度带来了新一波全球性的大模型应用和讨论的热潮,甚至被视为某些世界性事件的诱因,其中不仅仅有对AI领域中国式创新的热议,还有对AI发展路径的反思和展望。关于DeepSeek对AI发展的贡献,业界基本上有两点共识:一是它通过工程创新大幅地降低了大模型训练和应用的成本;二是它通过开源推动了海量的大模型应用,包括大量的本地部署型应用和各种各类的“接入”带来的间接应用,特别是对很多用户来说,尚属其AI大模型时代的“首航”。就笔者而言,更看重第二个贡献。虽然DeepSeek并非首个开源的大语言模型,但其所形成的影响以及进而对推动大模型开源乃至开源运动本身的作用,在某种意义上超越了前面的开源大模型,将其视为一个开启大模型发展新阶段的里程碑,应该是名副其实。本文主要针对AI模型的开源及其既有不足与未来发展,谈几点认识。

开源软件与开源精神

开源软件是一种源代码可以自由获取、并按许可证规定修改和分发的计算机软件1。开源软件的发展是理想主义和商业模式融合发展的成功案例。

开源缘起于奉献和利他的理想主义[1]。早期的软件作为硬件的附属品一同发售,源代码是开放的,允许制造商、大学和研究机构以及个人开发者进行修改,呈现自然开源特性。随着软件新产业形态的兴起,出现了版税软件,UNIX也开始了商业化,因此引发了1983年的自由软件(Free Software)运动,旨在倡导软件自由,包括自由使用、自由研究和修改、自由分享和自由改进并公开发布,反对专有软件对用户权利的限制。自由软件运动极大地促进了开源软件的发展,催生了Linux、GCC、Emacs等关键基础软件,为现代开源生态奠定了基础。20世纪90年代,互联网和商业软件的发展使得许多企业对“自由软件”概念产生误解,认为它仅仅意味着“免费”。为此,Christine Peterson提出“开源(open source)”一词,并得到Eric Raymond、Bruce Perens等人的支持和推广,共同成立了开放源码促进会(Open Source Initiative,OSI),主张以“开源软件”替代“自由软件”一词,以便更好地被商业公司接受。此后,越来越多的企业意识到开源不仅可以促进知识的传播,更是技术创新、商业获益的一种有效途径,开源商业模式开始形成和发展。进入21世纪,开源软件在全球范围内得到广泛应用,创造了全新的商业模式,并成为一种主流的软件开发模式——开源范式[2]。Apache、MySQL、Python等开源项目影响深远。科技巨头如Google、Microsoft、华为等也纷纷拥抱开源,进一步推动了开源生态的发展[3]。开源的历史是软件创新自由和版权收益之间斗争和平衡的历史,开源实现了自由创新与经济利益的平衡,共享与专有的平衡。开源生态的成功源于理想主义的情怀和精神,成于商业模式的加持。笔者以为,开源精神的本质是“开放、共享、协同、生态”[1]。文献[3]将开源描述为“一种共享共治的精神”“一种打破垄断开放创新的精神”及“一种鼓励奉献的精神”。开源精神和有效商业模式的融合构成了开源可持续发展的动力保障。

开源软件遵循“代码可获取、可复用、可分发、可衍生”的核心理念,促进了各类软件工具的快速协作共享、传播应用及迭代更新,形成了一股强大的技术创新力量。

从科技发展视角来看,开源是开放科学在软件领域的成功实践。

开放科学与开放创新

开放一直是人类社会发展的主流趋势,全球化的底层逻辑就是开放发展。

自17世纪科学革命肇始,西欧率先打破了经济的“千年停滞”状态,人类社会进入了快速的不断进步的阶段,通过科学研究认识世界,丰富了人类知识,进而基于科学发明技术,改造人类生存的世界。后续的工业革命开启了人类文明新形态,极大地丰富了物质文明。人类摆脱了靠天吃饭的宿命,出现了“经济增长”的概念。科学从诞生起,开放协作便是其最关键的“基因”,是其基本属性。开放协作成为知识发现和传播的核心范式。1665年英国皇家学会《哲学汇刊》诞生,这是人类史上第一本学术期刊。从此,科学发现经过期刊公开发表,向同行及社会分享研究成果,促进知识的传播和积累,成为科学共同体的通行做法。学术期刊为学术交流带来了更大便捷,亦使学术传播可达更广范围。特别是商业机构介入学术出版后,加速了学术出版的繁荣,极大促进了传播交流,对科技发展起到了不可或缺的重要作用。应该说,没有商业模式的支撑,科学的开放性就只能是个理念。然而,不可否认的是,随着商业出版集团对学术传播的垄断,其负面因素也凸显。期刊价格不断增长导致图书馆、科研机构和订阅读者不堪重负,尤其是发展中国家的机构和研究人员难以获取最新的研究成果,在一定程度上打破了开放和商业盈利间的平衡,客观限制了知识传播的范围,带来了信息获取的不平等,不利于创新和科技发展。

世纪之交,开放科学(Open Science)运动兴起。这是对科学的基本属性——开放性的一次螺旋上升式的再强调,主张使所有领域的科学研究无限制地向所有人开放,以促进科学家和全社会共同受益。其中有2个重要驱动力:一是旨在通过多种方式打破传统期刊收费模式,使学术研究成果可免费获取的开放获取(Open Access)运动,早期重要标志有2002年的《布达佩斯开放获取倡议》2和2003年的《柏林开放获取宣言》3;二是为了确保研究结果的可复现性和可信性,提倡科学家将研究数据公开,允许其他科学家共享这些数据的开放数据(Open Data)运动。如2003年,人类基因组计划将30亿碱基对数据向全球开放,引发生物医药领域创新浪潮[6]。当然,这一切均得益于互联网的普及、大型数据存储和计算能力的提升,为开放科学提供了技术支撑,研究者可以基于信息技术和平台更容易地分享数据、代码和研究成果。为此,还出现了如开放科学框架(Open Science Framework,OSF)之类的科研管理工具4,帮助研究者在整个研究生命周期中进行数据管理和分享。

当前,以“参与、包容、分享、合作、公开、透明”为理念的开放科学因符合科学本质,正在改变着科学实践过程、催化科学创新,是国际科技界所共同呼吁的理想环境[7]。在开放科学理念的进一步推动下,世界各地开始出现了各种开放数据运动。政府、科研机构、公益组织纷纷提倡将研究数据、公共数据开放出来,供社会大众与其他研究者使用和再创造。联合国、世界银行等国际组织也积极促成各国政府公开行政和统计数据,形成了“开放政府数据(Open Government Data)”的热潮[8]。开放数据运动的核心主张在于:除了成果本身,背后的数据同样具备巨大的社会价值。通过共享数据,研究者可以在更大的样本范围内开展研究,社会创新者也能基于相对低成本的数据获取来创造新技术或服务。科学社会学奠基人罗伯特·默顿指出,这种“公有主义”(communalism)通过知识共享避免了重复劳动,加速了科学进步[9]。

以互联网为代表的新一代信息技术的兴起和快速发展,极大地赋能了科学研究乃至其他领域的开放协作,突破交流的时空约束,实现了协作网络及其价值依梅特卡夫定律的平方级放大,如从Open Access期刊到预印本平台(如 arXiv、bioRxiv),研究成果的发布和获取方式逐渐从纸质期刊转向数字化与即时传播,信息和知识获取门槛大幅降低。当前,开放创新成为时代主流,在科学、数据、软件和硬件等多个领域扮演着日益关键的角色。Jeroen Bosman和Bianca Kramer将“开放”解构为一种系统性科研生态变革,需要技术、制度和文化协同演进,以实现更高效、包容和可信的科学体系,开放的范围涉及开源软件、开源硬件、开放访问、开放数据、开放教育资源与开放科学等(称为six SHADES of open)[10]。在开放创新的趋势下,开源已不再局限于软件,而是向更广阔的生态系统以及供应链扩展,如RISC-V的开源硬件之路,为在CPU领域打破垄断,推动技术普惠,带来了新的可能。

在社会经济领域出现逆全球化潮流的今天,科技领域的开放开源仍是进行时。从更大的时间尺度看,开放发展的大势是不可逆的,这是构建人类命运共同体的唯一途径。

人工智能与开放开源

21世纪以来,新一代信息技术发展迅速,热点频出,如云计算、物联网、大数据、区块链、元宇宙,当前的最热无疑是人工智能。从软件视角看这些热点技术有一个共同的特点,那就是相关的软件均采用了开源方式。如开源项目OpenStack、Docker、Kubernetes、Knative等在云计算、云原生生态中的基础设施、配置管理、运行时环境、服务编排、应用开发等方面扮演了重要角色。在大数据领域,基础设施以开源为主,如Hadoop、Spark、Cassandra、Neo4j等,分析方法也有不少开源,并越来越多,如Facebook PyTorch、Google TensorFlow、Microsoft DMTK、IBM SystemML等。AI的发展也不例外,其技术创新离不开开源软件和开放数据[11]。AI创新发展生态涉及开源软件、开源硬件、开放标准、开放数据以及开源运营等多个方面。

AI领域最早的开源可以追溯到20世纪90年代和21世纪初的一些神经网络和机器学习库。如2001年发布的LIBSVM库就是一个例子,这是一个支持向量机(support vector machine,SVM)、用于分类和回归等任务的库5。随着时间的推移,出现了越来越多的开源深度学习和神经网络框架,如TensorFlow、PyTorch、Theano等。2015年,Google开源TensorFlow,是首个开源的工业级深度学习框架,推动了AI研发的“平民化”。2018年,Google开源预训练模型BERT,开启AI开源开放的新阶段。2019年,OpenAI发布部分开放的GPT-2,引发关于AI模型应否开源的讨论。此后Hugging Face开源Transformers库,整合BERT、GPT等多种预训练模型,极大降低了自然语言处理(natural language processing, NLP)的研究门槛。截至2025年3月,Hugging Face Hub上已有超过33万个数据集和超过100万模型,涵盖了多种任务和领域6。Meta公司2023年推出的Llama系列引发大模型“平民化”浪潮,甚至被誉为大语言模型(large language model,LLM)中的“Linux”和“Android”。2025年1月,DeepSeek开源了其能力媲美甚至超越OpenAI o1,但成本更低的DeepSeek-R1,使得在全球范围内对“大语言模型”开源的讨论达到了新的热度和高度。

笔者长期从事软件技术领域的研究工作,也是软件开源的拥护者和研究者,对于AI模型开源,有如下几点认识:

类比开源软件,目前的AI模型“开源”还算不上真正意义的开源

对软件而言,源代码开放意味着“全开放”。基于开源代码,用户可以完整复现原软件的功能,还可以结合自身需求进行增量式开发。

AI模型虽也呈现为“软件”,但是该“软件”是通过对神经网络进行数据训练而获得,呈现为“模型架构”+“参数权重”,其中涉及的程序代码有:模型代码、训练代码、推断代码等,此外,还涉及训练数据及其处理代码、训练方法及相关代码、环境配置等,因此,模型开源实际上涉及多个层次。

目前大部分开源的大模型,仅公开了其模型结构、参数权重和推断代码,很少公开或基本不公开其训练所用的数据、方法、环境配置等重要知识和经验等细节。换言之,当前AI模型的开源仍处于“半开放”的过渡态。这样开放的模型,显然存在可复现问题,社区无法完整复现其技术实现,无法参与其核心创新,也难以进行增量式开发,只能直接应用或精调(fine tuning)后应用。一个反差极大的例子是,Linux内核近30年演进中超过2700万行代码由全球开发者透明协作、群智贡献,而主流开源大模型的主体实质性贡献几乎都来自单个主导企业。此外,传统开源模式仅聚焦代码透明,缺少对模型多层次、多内容以及多权属的开源治理能力[12];单纯开源模型权重无法解释其“决策”路径,而开源训练数据中的隐私泄露风险又阻碍了知识共享。由于开放内容的差异,开源软件和开源模型在许可证方面也存在较大不同:开源软件许可证的目的是开放软件源码,使得用户可以自由使用、修改和分发软件,从而促进协作和改进;开源AI模型许可证的目的是开放AI模型及其相关资源,使得用户能使用、学习、修改和分享AI模型7,并使用特定的条款来处理数据隐私、训练输出和商业用途等问题。

笔者以为,AI模型的开源固然有其不同于传统软件开源面临的问题,特别是在许可证方面有必要针对不同开放内容进行更细致的设计,但是,既然称为开源,还是需要维护开源的价值内核。当前观察到的一个异化现象是:当开源软件许可证保障用户“使用−研究−修改−分发”的完整自由时,不少AI模型开源许可证却通过商业使用限制、数据封锁、算力门槛等来构建技术垄断。要真正抵达开源软件的历史高度,AI模型开源需要突破“模型即产品”的思维定势,基于开放科学范式,向“数据−算法−算力”三位一体的开放演进。当然,由于AI模型从开发流程(从预训练到精调再到继续学习等)到所需资源(主要是数据和算力)跟传统软件开发均有很大差异,如开源软件的无歧视、可复现、协作修改等重要特点AI模型还难以达到,未来AI模型开源将如何发展,还需要学术界和产业界的协作探索和实践。

大语言模型需要走向开源,成为全世界共同维护的开放共享的基础设施

信息技术发展的历史一再证明,基础设施软件平台最终总是会走向开源。作为压缩了人类已有的可公开访问的绝大多数知识的基础模型,大语言模型的基础设施属性要求其必须挣脱私有化枷锁走向开源。全世界共同维护一个开放共享的基础模型,尽力保证其与人类知识的同步[13]。在开放共享的基础模型上,全球范围内的研究者和开发者可以面向各行各业的需求探讨各种应用,构建相应的领域模型。开源不但可以加快大语言模型的迭代与普及,更重要的是其对整个社会创新氛围与世界范围内的知识平等将产生持久而深刻的影响。当基础模型成为水电般的社会经济运行基础设施时,只有开源才能确保公共利益优先于商业利益。当前,欧盟8、美国9和英国10等陆续推出政策法案,倡导数据开放、资源开放以及AI系统的透明度。当开源许可证成为数字时代的一个重要“公约数”,我们将见证一个新时代的开启:AI基础模型既是人类集体智慧的结晶,也是人类社会可持续发展的基石。

智能化软件新范型需要新的开源模式

软件为包括信息产业在内的千行百业赋值赋能,已经成为人类社会经济活动的重要基础设施。自软件诞生以来,已经历多次范型变迁,但其开发方式的基本层面一直未变,即软件开发均由人或计算机辅助人编写程序,实现确定性计算过程和输出。AI技术的突破性进展使机器学习模型成为软件系统的重要部件,进而催生新的软件形态——“智能化软件”,软件的形态和行为发生了重大变化。所谓智能化软件,简言之,就是融入了机器学习模型和能力的软件。从构成的角度看,智能化软件融合了实现确定性计算的符号程序代码部件和实现非确定性概率计算的机器学习模型部件。从行为的角度,智能化软件作为人工制品,需要以软件定义的手段,根据应用场景灵活调控“人−机−物”的海量异构资源,持续满足功能、质量和体验要求。多个智能化软件实体还可能通过自主的协同交互,形成具有复杂网络结构和行为的群体智能系统[14]。

智能化软件新范型的复杂形态,导致其开源将成为开源软件和开源模型的混合体,这对开源许可证、开源供应链管理等均带来了系列新挑战,需要面向智能化软件范型探讨构建新的开源模式,支持全方位可复现、可参与、安全可控的智能化软件构造和运行。

单靠理想主义无法形成开源生态,需要保护知识产权并形成商业模式

开源从理想主义发展到商业模式友好经历了较长的过程,最后以开放创新、多元融合获得全社会承认,形成广泛的开源生态。理想主义若想延续,必须破除“开源等于免费”的认知误区,构建良好的知识产权保护制度,并接纳商业力量的融入。20世纪90年代初,当越来越多的企业意识到开源不仅可以促进知识的传播,更是技术创新、商业获益的一种有效途径,开源商业模式开始形成和发展[15]。科技巨头纷纷拥抱开源,加大资金和人力投入,甚至将其闭源产品转为开源项目。开发者通过开源许可证保护知识产权,同时也为商业化提供了基础约束框架。目前已经形成一些经典的商业参与开源模式,如通过基于开源版本分发软件、补充服务、集成、使用以及混合许可等获益[16]。同时,一些基于开源软件的商业生态可能并非全过程开放。AI模型的开源作为新的开放形式,同样需要保护知识产权(包括更复杂的数据权属保护)和包容商业介入,这同样是需要学术界和产业界协同探索和实践的重要课题。当然,商业模式一直是开源发展的难题,大企业可能以开源建立技术护城河,小企业可能难以找到盈利模式,但是,商业模式也是开源成功的关键要素。理想主义和商业模式的交织才能真正形成可持续发展的开源生态。

和商业模式的交织才能真正形成可持续发展的开源生态。

致谢

本文成稿过程得益于和北京大学周明辉教授的多次讨论,也得益于她帮助收集了大量参考文献和素材。清华大学刘云浩教授也给出了富有价值的建议。一并致谢!

图片

作者简介

梅 宏,CCF会士、前理事长。中国科学院院士。北京大学教授。主要研究方向为系统软件、软件工程。mailto:meih@pku.edu.cn

脚注

https://legacy.earlham.edu/~p..., 2025−03−26

https://openaccess.mpg.de/Ber..., 2025−03−26

3https://opensource.org/osd, 2025−03−20

4https://osf.io/, 2025−03−26

5https://www.csie.ntu.edu.tw/~..., 2025−03−26

6https://huggingface.co/, 2025−03−26

7https://opensource.org/ai, 2025−04−01

8https://digital-strategy.ec.e..., 2025−04−01

9https://www.ai.gov/wp-content..., 2025−04−01

10https://www.gov.uk/government..., 2025−04−01

参考文献

[1]梅宏,等. 我国开源软件技术发展策略建议[R/OL]. 北京: 中国科学院, 2016.https://casad.cas.cn/jczx/zxcg/zx/2016n/202303/t20230309\_4879275.html.    

[2]王怀民,余跃,王涛,等. 群智范式: 软件开发范式的新变革[J]. 中国科学(信息科学), 2023, 53(8): 1490−1502.    

[3]孙凝晖. 论开源精神[J]. 中国计算机学会通讯, 2021, 17(4): 7.    

[4]金芝,周明辉,张宇霞. 开源软件与开源软件生态: 现状与趋势[J]. 科技导报, 2016, 34(14): 42−48.    

[5]GitHub. Let's build from here[EB/OL]. (2024−11−22)[2025−03−28]. https://github.blog/news-insi...    

[6]International Human Genome Sequencing Consortium. Finishing the euchromatic sequence of the human genome[J]. Nature, 2004, 431(7011): 931−945.    

[7]袁亚湘,魏鑫,汪洋,等. 我国开放科学治理框架研究[J]. 中国科学院院刊, 2023, 38(6): 818−828.    

[8]ATTARD J, ORLANDI F, SCERRI S, et al. A systematic review of open government data initiatives[J]. Government information quarterly, 2015, 32(4): 399−418.    

[9]MERTON R K . The Normative Structure of Science[M]// STORER N W. The sociology of science: theoretical and empirical investigations. Chicago: University of Chicago Press, 1973: 267−278. 

[10]BOSMAN J, KRAMER B. Defining open science definitions[EB/OL]. (2017−03−27)[2025−03−28]. https://im2punt0.wordpress.co...    

[11]梅宏. 人工智能时代的开放创新[C]//2021世界人工智能大会. 上海: 中华人民共和国国家发展和改革委员会、中华人民共和国科学技术部、中华人民共和国工业和信息化部、中华人民共和国国家互联网信息办公室、中国科学院、中国工程院、中国科学技术协会、上海市人民政府, 2021.    

[12]梅宏. 开源软件: 现状与挑战[R]. 北京: 工业和信息化部, 2024.    

[13]梅宏. 对当前人工智能的几点冷思考[C]// 2024 ACM中国图灵大会. 长沙: 国际计算机学会, 2024.    

[14]梅宏,吕建,王怀民. 面向人机物融合的智能化软件: 挑战与机遇[C]// 第九届中国科学院学部学术年会报告文集. 北京: 中国科学院, 2024.    

[15]ZHOU Minghui, MOCKUS A, MA Xiujuan, et al. Inflow and retention in OSS communities with commercial involvement[J]. ACM transactions on software engineering and methodology, 2016, 25(2): 1−29.    

[16]LI Xuetao, ZHANG Yuxia, OSBORNE C, et al. Systematic literature review of commercial participation in open source software[J]. ACM transactions on software engineering and methodology, 2025, 34(2): 1−31.

图片经典干货,“赞”三连


Datawhale
71 声望12 粉丝

Datawhale 是一个专注于 AI 领域的开源组织,致力于构建一个纯粹的学习圈子,帮助学习者更好地成长。我们专注于机器学习,深度学习,编程和数学等AI领域内容的产出与学习。