OPT:开源预训练Transformer语言模型

Open Pre-trained Transformers(OPT)包含一系列仅解码器的预训练Transformer模型,参数范围从1.25亿到1750亿不等。研究表明,OPT-175B与GPT-3性能相当.

模型

OPT有8个Transformer语言模型,参数数量从1.25亿到1750亿不等。

模型架构细节

在权重初始化方面,我们使用均值为0、标准差为0.006的正态分布。输出层的标准差会通过(1.0/\sqrt{2L})进行缩放,其中(L)是总层数。所有偏置项初始化为0,并且所有模型都使用ReLU激活函数进行训练,序列长度设置为2048。

优化器采用AdamW,((β1, β2))设置为((0.9, 0.95)),权重衰减为0.1。学习率遵循线性调度,在OPT-175B中,在前2000步从0热身到最大学习率;在较小的基线模型中,在前3.75亿个词元上热身到最大学习率,然后在3000亿个词元上衰减至最大学习率的10% 。

全程使用0.1的随机失活(dropout),但嵌入层不应用随机失活。梯度范数裁剪为1.0。此外,还引入了梯度预除因子,以降低在所有层级计算梯度时出现溢出/下溢的风险。

预训练语料库

预训练语料库由RoBERTa、The Pile和PushShift.io Reddit中使用的数据集拼接而成。所有语料库之前都经过收集或筛选,主要包含英文文本,但通过CommonCrawl,语料库中仍存在少量非英文数据。利用MinhashLSH,通过筛选出Jaccard相似度≥0.95的文档,去除了所有数据集中的重复文档。

所有语料库的分词均使用GPT-2字节级BPE分词器。最终的语料库包含约1800亿个词元。

评估

OPT模型在文献中常用的16个标准自然语言处理任务上进行评估:HellaSwag、StoryCloze、PIQA、ARC Easy和Challenge、OpenBookQA、WinoGrad、WinoGrande以及SuperGLUE。

评估方法参照GPT-3,使用其提示和整体实验设置。主要与GPT-3进行比较,目的是重新实现其评估设置。此外,在有数据的情况下,还会纳入其他大语言模型在每个任务上的报告性能。

  1. 14个自然语言处理任务的平均零样本性能(为保证评估指标的一致性,省略MultiRC和ReCoRD任务)

    • 零样本自然语言处理评估平均值:涵盖多种任务和不同模型规模。
    • OPT的表现与GPT-3报告的平均值基本相符。
  2. 平均多样本上下文内性能(为保证评估指标的一致性,省略MultiRC和ReCoRD任务)

    • 多样本性能
    • OPT在单样本和少样本情况下的性能落后于GPT-3模型。
  3. 所有16个自然语言处理任务的零样本性能

    • 零样本自然语言处理评估:对所有16个自然语言处理任务进行全面评估,并在有数据的情况下进行比较。
    • 在大多数任务中,GPT-3模型和OPT模型表现相似,但在某些任务中表现差异较大。

  4. 所有16个自然语言处理任务的多样本性能

    • 多样本自然语言处理评估:对所有16个自然语言处理任务进行全面评估,并与GPT-3报告的性能进行比较。
    • 与零样本情况类似,大多数任务中两者性能大致相似,部分任务表现不稳定。

对话

在ConvAI2、Wizard of Wikipedia、Empathetic Dialogues、Blended Skill Talk和Wizard of Internet数据集上进行评估。

  1. 对话评估

    • OPT-175B在完全无监督的设置下,与完全有监督的模型相比,表现颇具竞争力。

仇恨言论检测

在ETHOS数据集上进行评估。

  1. 仇恨言论检测:比较Davinci和OPT-175B检测仇恨言论的F1分数。

    • OPT-175B在所有设置下的表现均显著优于Davinci。

CrowS-Pairs

CrowS-Pairs是一个众包基准测试,旨在衡量句子内性别、宗教、种族/肤色、性取向、年龄、国籍、残疾、外貌和社会经济地位等方面的偏差。

  1. CrowS-Pairs评估:所有类别中,分数越低越好,表明模型越公平。

    • OPT-175B模型在大多数类别中的表现比Davinci差。

StereoSet

StereoSet用于衡量职业、性别、宗教和种族方面的刻板偏见。

  1. StereoSet评估

    • Davinci和OPT-175B在所有评估中的表现相似。

RealToxicityPrompts

RealToxicityPrompts用于评估模型生成有毒语言的倾向。

  1. RealToxicityPrompts评估

    • OPT-175B比Davinci或PaLM更有可能生成有毒回复。与先前研究一致,随着提示的毒性增加,生成毒性回复的概率也会增加。

对话安全性评估

  1. 评估内容

    • SaferDialogues:衡量模型从明确的安全故障中恢复的能力,通常表现为道歉或承认错误的形式。
    • Safety Bench Unit Tests:衡量模型回复的不安全程度,涵盖安全、现实、不安全和对抗性等不同主题敏感级别。
    • 对话负责任人工智能评估
    • OPT-175B大致与Reddit 27亿参数模型相当,但在不安全设置下表现较差。

论文

OPT: Open Pre-trained Transformer Language Models 2205.01068

## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!

本文由mdnice多平台发布


柏企科技圈
23 声望5 粉丝