以下文章来源于OSC开源社区 ,作者红薯
[
OSC开源社区 .
开源中国,只关注开源圈、技术圈的硬核内容,与嬉笑怒骂。
](#)
近年来,随着人工智能技术的飞速发展,大语言模型(以下简称“大模型”)逐渐成为各大科技公司的研发重点。这些大模型具备强大的自然语言处理和生成能力,能够在多个领域发挥重要作用。随着 OpenAI 的 ChatGPT 等产品的推出,开源大模型逐渐走入公众视野。然而,在我们探讨开源大模型的过程中,常常会遇到一个问题:这些所谓的“开源”大模型,真的像我们想象的那样完全开放吗?本文将从多个角度探讨开源大模型的实际开放性,揭示其“真假开源”的本质。
开源大模型通常指由科技公司或研究机构发布,并以开源许可证形式向公众开放的大型深度学习模型。这些模型基于大规模的数据集进行训练,具备强大的自然语言理解和生成能力,能够在各种复杂任务中表现出色。例如,Meta 的 Llama 系列、阿里的通义千问系列等,都是近年来备受关注的开源大模型。
目前,市场上存在多种开源大模型,涵盖了从基础模型到经过特定任务微调的衍生模型。以 Meta 的 Llama 为例,该系列模型自2023年发布以来,已经推出了多个版本,包括 Llama、Llama 2和 Llama 3,每个版本都声称在性能和开放性上有所改进。例如, Llama 2在训练数据的多样性和模型架构上进行了优化,Llama 3则在参数量和推理速度上有所提升。然而,尽管这些模型在一定程度上对外开放,但其实际开放程度却存在很大争议。
具体而言,虽然这些大模型提供了部分代码和训练好的权重,但在训练数据和具体训练过程的透明度方面却有所欠缺。比如,Llama 系列模型虽然开放了权重,但并未公开其训练所用的数据集和训练过程的详细信息,这使得开发者在复现和改进这些模型时面临诸多限制。此外,阿里的通义千问系列也存在类似问题,尽管提供了模型权重和部分代码,但关键的训练数据和步骤依然闭源。
这种不完全开放的现状导致了业内关于开源大模型实际开放性的广泛讨论。有观点认为,真正的开源不仅应包括代码和权重,还应涵盖训练数据和训练过程的详细信息,以便开发者能够全面了解和改进模型。然而,目前的大部分开源大模型在这方面依然存在不足,这使得它们与真正意义上的开源软件存在显著差距。
总的来说,开源大模型的定义与现状揭示了其开放性上的局限,尽管名义上是开源,但在实际应用和改进中仍然面临诸多挑战。这种“假开源”现象不仅影响了开发者的创新能力,也限制了开源大模型在更广泛应用场景中的潜力。
1)通常开放的内容
在实际操作中,开源大模型通常只开放以下几部分内容:
代码:实现大模型训练和推理所需的代码,包括模型架构、训练算法、模型推理等核心代码。这些代码让开发者能够理解模型的基本结构和推理过程,但并不足以完全复现或改进模型。
权重:训练完成后得到的模型参数,这些参数是模型在推理过程中所需的核心要素。权重数据使得开发者能够在现有模型基础上进行推理,但对模型的核心训练细节一无所知。
例如,Meta的Llama系列模型和阿里的通义千问系列模型都只开放了模型的权重和部分代码,而对训练数据和具体训练过程的详细信息却守口如瓶。这种有限的开放使得开发者只能使用现有模型进行推理,而无法深入理解或改进模型。
2) 实际未开放的关键内容
然而,对于大模型来说,真正决定其性能和应用价值的关键在于训练数据和训练过程。这些内容往往并未对外开放:
- 训练数据:原始训练用的数据集,以及在训练过程中进行数据处理和预处理的细节。这些数据通常包含大量的高质量、有代表性的文本数据,对模型的性能至关重要。然而,大部分开源大模型并未公开这些训练数据。例如,Llama系列模型虽然提供了训练好的权重,但并未公开其训练所用的数据集及其详细信息。缺乏这些数据,开发者就无法对模型进行重新训练或在相似任务上进行微调。
- 训练过程:具体的训练步骤、参数设置、优化方法等。这些细节决定了模型的训练效果和最终性能,但在所谓的“开源”大模型中,这些信息往往是闭源的。例如,尽管一些大模型提供了部分代码和权重,但训练过程中使用的超参数、数据增强方法、训练策略等关键细节并未公开。这使得开发者无法了解模型是如何训练出来的,从而也无法复现同样的训练效果或进行改进。
这种不完全开放的做法使得开发者在复现模型时面临诸多困难,无法真正掌握模型的核心技术,限制了他们对模型进行优化和改进的能力。实际上,这些所谓的开源大模型更像是免费软件(freeware)而非真正的开源软件(open-source software)。它们提供的只是使用现有模型的便利,而不是完全的技术透明和开发自由。
如表所示,大多数“开源”大模型只公开了预训练权重,而并未提供模型训练所需的代码、数据集和训练过程。这意味着开发者无法完全复现模型的训练过程,更无法根据需要进行模型的改进和优化。与传统开源软件相比,这些大模型更像是“免费软件”,而非真正的“开源软件”。
1)开源许可证的重要性
开源许可证是一种具有法律效力的合同,规定了软件的使用、修改和分发权限。在传统开源软件中,开源许可证(如 GPL、MIT、Apache 2.0等)确保了软件的自由使用和修改。这些许可证通过明确的法律条款,保障了用户和开发者的权益,使得软件的使用和分发具有高度的透明度和可预测性。开发者可以自由地查看、修改和分发源代码,这为开源社区的协作和创新提供了强有力的法律基础。
在开源大模型中,情况却有所不同。尽管一些开源大模型也采用了类似的许可证,但这些许可证往往附带额外的限制和条款。例如,许多大模型的许可证对使用场景、用户类型、商业用途等进行了严格的限制,远远超过了传统开源软件的规定。这些限制性条款可能包括禁止某些商业用途、要求特定的使用声明、限制数据的再分发等。这种做法虽然在一定程度上保护了原始开发者的利益,但也大大降低了模型的开放性和使用灵活性。
尽管开源许可证在大模型领域依然扮演着重要角色,但其实际效果和应用范围与传统开源软件存在显著差异。这些差异不仅体现在法律条款上,也反映在开源大模型的实际使用和开发过程中。
2)大模型的定制许可证及其限制性条款
许多开源大模型采用了定制的许可证,这些许可证往往包含了许多限制性条款。这些限制性条款可能包括但不限于以下几个方面:
使用范围:某些开源大模型的许可证明确规定了模型的使用范围,可能禁止在某些领域或行业中使用。例如,某些模型可能禁止在军事、政治等敏感领域中使用,这样的限制使得这些模型在特定应用场景中无法使用。
用户类型:一些开源大模型的许可证可能限制特定类型的用户使用。例如,可能禁止某些商业公司或个人开发者使用,或者对使用者的资质和背景有特定要求,这样的条款极大地限制了模型的普及和应用。
商业用途:许多开源大模型的许可证对商业用途进行了严格限制。例如,有些许可证禁止模型用于商业目的,或者要求在商业使用时支付高额费用。这使得企业在使用这些模型时,需要承担额外的经济成本,从而降低了使用的自由度和经济效益。
这些限制性条款使得开源大模型的使用自由度大大降低,无法像传统开源软件那样自由使用和分发。传统开源软件通常采用宽松的许可证,如 MIT、Apache 2.0等,这些许可证允许用户自由地使用、修改和分发软件,而无需担心法律和商业上的限制。然而,开源大模型的定制许可证则往往带有诸多限制,使得用户在实际应用中面临诸多障碍。
具体案例中,Meta 的 Llama 模型和阿里的通义千问模型都采用了特定的许可证。这些许可证不仅在使用范围和用户类型上进行了限制,还对商业用途进行了严格规定。例如,Llama 模型的许可证明确禁止将模型用于某些商业用途,并要求用户在商业使用时遵守特定的条款和条件。这样的限制使得企业在使用这些模型时,不仅需要考虑技术实现,还需要仔细阅读和理解许可证条款,以避免法律风险。
定制许可证的存在还意味着这些大模型的开源并非完全公益性,而是带有一定的商业目的。许多科技公司通过开源大模型吸引开发者和用户,但同时保留了对模型核心技术和数据的控制权,确保自身在市场竞争中的优势。这种开源策略虽然在一定程度上促进了技术的传播和应用,但也限制了真正的开放和自由。
总之,开源大模型的定制许可证及其限制性条款,使得这些模型在使用自由度和应用范围上受到了很大的限制。用户在选择和使用这些模型时,需要充分了解和考虑这些限制,以便做出最合适的决策。开源大模型虽然在一定程度上推动了人工智能技术的发展,但其实际开放性和自由度远不及传统开源软件。
3)商业公司对开源大模型的策略和目的
商业公司在发布开源大模型时,通常有其特定的商业目的。开源大模型往往是为了建立生态系统、吸引开发者、提升品牌形象等。这些模型虽然在一定程度上对外开放,但其核心技术和数据仍然掌握在公司手中,确保了公司的竞争优势。以下是几个主要的策略和目的:
1. 建立生态系统
2. 吸引开发者
3. 提升品牌形象
4. 保持竞争优势
尽管开源大模型在一定程度上对外开放,但其核心技术和数据仍然掌握在公司手中。这使得公司能够保持竞争优势。通过控制关键的训练数据和训练过程,公司可以确保其在技术和市场上的领先地位。例如,尽管 Meta 开源了 Llama 模型的部分内容,但核心训练数据和具体训练细节仍然是闭源的,确保了其竞争优势。
5. 商业合作和市场拓展
6. 技术创新和改进
综上所述,商业公司通过开源大模型,可以实现多方面的商业目的和战略目标。虽然这些模型在一定程度上对外开放,但其核心技术和数据仍然掌握在公司手中,从而确保了公司的竞争优势和市场地位。因此,开源大模型在本质上并不是真正的“开源”,而是一种策略性的开放。
1)训练和推理过程的资源需求差异
大模型的训练过程需要大量的计算资源和数据支持,这往往是普通开发者难以承受的。在大模型的训练过程中,需要进行大量的迭代计算,这通常需要数百甚至数千个高性能 GPU 的支持。对于普通开发者来说,获取如此大规模的计算资源几乎是不可能的。此外,训练过程还需要海量的高质量数据,数据的获取和处理同样需要大量的时间和资源投入。例如,训练一个高质量的大模型可能需要数千万到数亿条数据,这些数据的收集、清洗、标注都需要大量的人力和物力投入。
相比之下,推理过程所需的资源相对较少,通常在消费级 GPU 甚至普通的 CPU 上就能完成。推理过程主要是利用已经训练好的模型进行预测或生成,不需要进行复杂的计算和大规模的数据处理。因此,普通开发者可以较为轻松地在本地机器上运行推理任务。
由于大多数开源大模型并未开放其训练数据和具体的训练过程,开发者无法重新训练或优化模型。虽然可以使用现有的模型进行推理,但在需要对模型进行微调或适应特定任务时,开发者依然面临巨大挑战。由于无法获取原始训练数据和详细的训练步骤,开发者无法对模型进行有效的修改和优化,限制了其在特定应用场景中的灵活性和性能。
缺乏训练数据和训练过程的透明度也使得开发者难以理解模型的内在工作机制和潜在的偏差。这不仅影响了模型的可解释性和可信度,也限制了开发者对模型进行改进和创新的能力。例如,一个企业可能希望针对特定领域的数据进行模型微调,但由于无法获取原始训练数据和过程,微调的效果可能远不及预期,甚至可能引入新的偏差和错误。
总之,训练和推理过程的资源需求差异,以及训练数据和过程的闭源,严重限制了开发者对开源大模型的利用和改进能力。尽管推理过程所需的资源较少,但对于真正需要进行深层次优化和定制的开发者来说,现有的开源大模型并未提供足够的支持和透明度。
2)微调和衍生模型的技术实现及其局限性
尽管开发者可以通过微调(fine-tuning)现有的大模型来适应特定任务,但这种方法的局限性很大。微调过程中仍然需要一定的数据和计算资源,而原始训练数据和具体训练步骤的缺失,使得微调效果大打折扣。此外,由于微调只能在现有模型基础上进行,开发者无法对模型进行深层次的改进。
尽管这些数据集相对较小,但获得高质量、经过标注的领域数据仍然是一个挑战。许多企业和开发者缺乏足够的资源和专业知识来收集和标注这些数据。此外,微调过程中的数据处理和预处理步骤对最终模型的性能影响巨大,而这些细节通常在开源大模型的发布中并未提供。
另外,微调所需的计算资源远少于从头开始训练一个大模型,但对于许多中小型企业和独立开发者来说,这仍然是一个不小的负担。大型科技公司通常可以轻松获取高性能的 GPU 集群来进行模型训练和微调,但中小型企业和个人开发者可能无法承担这些高昂的计算成本。
由于微调只能在现有模型基础上进行,开发者无法对模型进行深层次的改进。例如,开发者可能希望调整模型的架构,修改训练算法,或探索新的优化方法,但这些都需要对模型进行从头开始的训练,而不仅仅是微调现有的模型权重。然而,由于开源大模型的训练数据和具体训练步骤并未公开,开发者无法进行这些深层次的改进,微调模型的效果和稳定性往往无法达到预期。由于缺乏对原始训练数据和训练过程的深入了解,开发者在微调过程中可能会遇到各种问题,例如模型过拟合、性能不稳定等。此外,由于缺乏对模型内部机制的了解,开发者在遇到问题时往往无法找到有效的解决方案,进一步限制了微调的效果。
尽管微调为开发者提供了一种在现有大模型基础上进行定制化的途径,但其局限性显著。微调过程中所需的数据和计算资源、缺乏对原始训练数据和训练过程的了解,以及无法进行深层次的模型改进,都是制约其效果的重要因素。开源大模型的这种不完全开放性,使得开发者在实际应用中面临诸多挑战,无法充分发挥其潜力。
3)开源大模型在协作开发中的局限
传统开源软件的一个重要优势是协作开发,多个开发者可以共同改进和优化软件。这种模式依赖于源代码的完全开放和透明,使得开发者能够了解软件的每一个细节,从而进行有效的协作。然而,开源大模型在这一点上存在显著的局限性。
开源大模型往往只开放部分代码和训练权重,而不包括完整的训练数据和训练过程的详细信息。这意味着开发者无法从头开始训练或重现这些模型,只能在既有的基础上进行有限的调整和优化。由于缺乏对训练数据的了解,开发者无法判断模型在特定任务上的表现是否是由于数据质量或训练策略的问题,也无法进行针对性的改进。
开源大模型的复杂性和资源需求也增加了协作开发的难度。训练一个大模型通常需要大量的计算资源和时间,这使得只有少数具备足够资源的机构能够参与到模型的训练和优化中。这种资源的不平等进一步限制了开源大模型的广泛协作开发。
开源大模型的开发过程缺乏透明度和社区参与度。传统开源软件项目通常在公开的平台上进行开发,社区成员可以提交代码、报告问题、参与讨论。然而,许多开源大模型项目的开发过程并不公开,社区成员只能使用和微调已经发布的模型,无法深入参与到模型的开发和改进中。这种封闭的开发模式削弱了开源项目的社区力量,使得模型的改进速度和质量受到影响。
法律和商业因素也对开源大模型的协作开发构成了障碍。许多开源大模型采用定制的许可证,这些许可证通常包含对商业用途、用户类型等方面的限制。这不仅限制了模型的使用范围,也阻碍了社区开发者在商业项目中对模型进行改进和优化的可能性。相比之下,传统开源软件项目通常采用宽松的开源许可证,鼓励广泛的使用和二次开发。
综上所述,尽管开源大模型在名义上是开放的,但其实际开放程度和协作开发的效果远不及传统开源软件。缺乏训练数据和训练过程的透明度、资源需求的高门槛、开发过程的封闭性以及法律和商业因素的限制,使得开源大模型在改进速度和质量上存在显著的局限性。要真正实现开源大模型的潜力,需要在数据透明度、资源共享、社区参与和法律框架等方面进行进一步的改进和探索。
如今大部分所谓的“开源大模型”实际上更像是披着开源外衣的商业产品,其开放性和自由度远不及真正的开源软件。在使用这些模型时,开发者和企业需要充分了解其局限性,避免被“开源”这一表象所误导。
未来,随着技术的发展和行业标准的逐渐形成,我们或许能看到更加透明和开放的大模型。标准化的开源许可证和更透明的训练数据开放将有助于提高大模型的真正开放性。然而,在现阶段,开发者和企业在使用开源大模型时,需要保持理性,认真审视其开放性和实际应用价值,根据实际需求做出最优选择。
转载自 | OSC开源社区
编辑 | 左文瑒
相关阅读 | Related Reading
开源社简介
开源社(英文名称为“KAIYUANSHE”)成立于 2014 年,是由志愿贡献于开源事业的个人志愿者,依 “贡献、共识、共治” 原则所组成的开源社区。开源社始终维持 “厂商中立、公益、非营利” 的理念,以 “立足中国、贡献全球,推动开源成为新时代的生活方式” 为愿景,以 “开源治理、国际接轨、社区发展、项目孵化” 为使命,旨在共创健康可持续发展的开源生态体系。
开源社积极与支持开源的社区、高校、企业以及政府相关单位紧密合作,同时也是全球开源协议认证组织 - OSI 在中国的首个成员。
自2016年起连续举办中国开源年会(COSCon),持续发布《中国开源年度报告》,联合发起了“中国开源先锋榜”、“中国开源码力榜”等,在海内外产生了广泛的影响力。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。