OpenAI宣布推出拥有1750亿参数的GPT-3 AI语言模型 - SegmentFault 思否

OpenAI宣布推出拥有1750亿参数的GPT-3 AI语言模型

发布于 2020-06-02

GPT-3 模型的发布与研究总结

OpenAI 的研究团队最近在 arXiv 上发表了一篇论文，介绍了 GPT-3，这是一个拥有 1750 亿参数的自然语言处理深度学习模型，比之前的 GPT-2 模型大了 100 倍。该模型在近 5000 亿单词的数据集上进行了预训练，并在多个 NLP 基准测试中取得了最先进的性能，且无需微调。

主要观点

模型规模与性能：GPT-3 拥有 1750 亿参数，远超 GPT-2 的 15 亿参数。研究团队假设更大的模型可以在多种任务上表现良好，且无需微调，实验结果支持了这一假设。
数据集与训练：训练数据集包括 Common Crawl、英文维基百科、WebText 和两个书籍语料库。为了提高数据质量，团队对 Common Crawl 进行了过滤，但仍存在一些数据污染问题。
性能评估：GPT-3 在多个 NLP 基准测试中表现优异，特别是在“闭卷”问答任务和 LAMBADA 语言建模任务中创下了新纪录。在新闻文章生成任务中，人类判断真实文章与 GPT-3 生成文章的准确率仅为 52%，接近随机猜测。
模型的局限性：GPT-3 在生成长文本时可能出现语义重复、逻辑不一致、段落不连贯等问题。此外，模型在处理“常识物理”问题时表现不佳。

关键信息

预训练与微调：GPT-3 基于 Transformer 架构，通过自监督学习在大量文本数据上进行预训练。与以往模型不同，GPT-3 在预训练后无需微调即可在多种任务上表现良好。
规模定律：OpenAI 提出了 Transformer 模型的“规模定律”，指出模型性能（如测试数据集上的交叉熵损失）与模型参数数量、数据集规模和训练计算量呈幂律关系。
成本与资源：训练 GPT-3 最大版本的成本可能高达近 1200 万美元。模型的庞大规模使其可能开始表现出类似记忆网络的行为。

重要细节

数据污染问题：由于过滤过程中的一个错误，训练数据中可能包含一些基准测试的实际测试数据，影响了训练的纯净性。
模型版本：团队训练了八个不同规模的模型，参数范围从 1.25 亿到 1750 亿，并在数十个 NLP 基准测试中进行了评估。
开源情况：与 GPT-2 类似，OpenAI 并未发布 GPT-3 的训练模型或代码，但在 GitHub 上提供了一些测试数据集和模型生成的文本样本。

社区反应

成本讨论：Alchemy API 创始人 Elliot Turner 推测训练 GPT-3 最大版本的成本可能接近 1200 万美元。
性能解释：佐治亚理工学院的 Mark Riedl 教授认为，GPT-3 的参数量接近训练数据的一半，可能使其开始表现出类似记忆网络的行为。

总结

GPT-3 是当前最大规模的自然语言处理模型，其庞大规模的预训练使其在多种任务上表现出色，但也存在一定的局限性。尽管模型未开源，但其研究成果对 NLP 领域具有重要意义，并为未来的模型发展提供了新的方向。

OpenAI Announces GPT-3 AI Language Model with 175 Billion Parameters

https://www.infoq.com/news/2020/06/openai-gpt3-language-model/

阅读 74

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。