更多专栏文章点击查看:
LLM 架构专栏
大模型架构专栏文章阅读指南
Agent系列
强化学习系列
欢迎加入大模型交流群:加群链接 https://docs.qq.com/doc/DS3VGS0NFVHNRR0Ru#
公众号【柏企阅文
知乎【柏企】
个人网站https://www.chenbaiqi.com

PaLM 2是PaLM的继任者。它的计算效率更高,并且在跨越数百种语言和领域的更多语言和数据混合上进行了预训练。它通过在不同的预训练目标组合上进行训练,以理解语言的不同方面。

训练数据集

多语言网页文档的语言分布(不包括英语)

PaLM 2的训练数据集包含比以往大语言模型更高比例的非英语数据。除了非英语单语数据外,它还在涵盖100多种语言的平行数据上进行训练,这些数据以源文本和目标文本对的形式呈现,其中一侧是英语。

PaLM 2的训练显著增加了模型的上下文长度,远超PaLM。

缩放定律实验

从所有4种计算规模获得的缩放定律

使用将浮点运算次数(FLOPs)与训练数据量(D)和模型大小(N)相关联的启发式公式(FLOPs ~ 6ND),在各种计算预算下训练不同大小的模型。

给定浮点运算次数下的估计最优参数大小

结果表明,随着浮点运算预算的增加,D和N应等比例增长以实现最佳性能。

评估

语言能力考试

PaLM 2和PaLM在最新的专业语言能力考试中的表现。

PaLM 2在所有考试中均优于PaLM,并在所有评估语言中都取得了及格分数。

分类和问答

英语问答和分类任务

在一次性设置下对英语问答和分类任务进行评估。

几乎在所有任务上,PaLM 2都比PaLM有显著改进。

在使用Winograd模式的WSC和WinoGrande任务上,两者表现相似。

在对抗性自然语言推理(ANLI)数据集(稳健性很重要)、常识推理数据集ReCoRD以及阅读理解的RACE数据集上,PaLM 2有尤为显著的改进。

多语言问答

在一次性设置下,多语言TyDi QA数据集上的F1分数。

PaLM 2在两种设置下进行测试:黄金段落(有上下文)和更具挑战性的无上下文设置。

在两种设置下,所有PaLM 2变体的表现都始终优于PaLM。

在黄金段落设置中,PaLM 2变体之间的差异很小,表明其具有强大的多语言阅读理解能力。

在无上下文设置中,更大的PaLM 2模型表现明显优于其他模型。

PaLM 2比PaLM有显著改进,特别是对于数据有限的语言(如泰卢固语、斯瓦希里语、印尼语)和非拉丁字母书写的语言(如阿拉伯语、韩语)。

多语言毒性分类

多语言拼图(Multilingual Jigsaw)和英语公民评论(English Civil Comments)上的毒性分类AUC-ROC(受试者工作特征曲线下面积)。

PaLM 2在英语毒性分类上优于PaLM。

使用拼图多语言数据集(Jigsaw, 2019b),它在非英语示例上也表现出性能提升。

不过,PaLM 2在西班牙语上的性能略有下降。

推理

对推理任务的评估。括号内为示例数量。上标表示过去的工作结果:a代表GPT-4,b代表PaLM,c代表PaLM+思维链+自一致性(PaLM+CoT+SC),d代表QDGAT,e代表DeBERTaV3-large+KEAR,f代表PaLM+思维链(PaLM+CoT),g代表PaLM+思维链(PaLM+CoT)。

PaLM 2在所有数据集上都优于PaLM,并且与GPT-4的表现相当。

值得注意的是,在多语言XCOPA数据集上,PaLM 2在斯瓦希里语、克丘亚语和海地语等代表性不足的语言上有显著改进,创造了新的最先进水平。

超越模仿游戏基准(BIG-Bench)困难任务

BIG-Bench困难任务的3次示例结果。

在每个任务上,PaLM 2都比PaLM有显著改进。

数学推理

在MATH、GSM8K和MGSM数据集上,使用思维链提示/自一致性方法的评估结果。a代表Minerva,b代表GPT-4,c代表Flan-PaLM。

在这三个数据集上,PaLM 2都大幅超越了原始的PaLM模型。

在MATH数据集上,PaLM 2的性能与专门的Minerva模型相当,Minerva模型处于最先进水平。

在GSM8K数据集上,PaLM 2的表现也优于Minerva和GPT-4。

在多语言MGSM数据集上,即使不使用自一致性技术,PaLM 2也超越了最先进水平。

编码

PaLM 2-S*是一个小型的、特定于编码的模型,专为在开发者工作流程中实现低延迟、高吞吐量的部署而创建。

代码生成

PaLM和PaLM 2-S*模型在编码评估上的结果。a代表PaLM

尽管PaLM 2-S*规模更小、成本效益更高且服务速度更快,但在包括ARCADE在内的所有基准测试中,其表现都优于PaLM-540B-Coder。

多语言评估

在12种编程语言的单次通过率(pass@1)设置下,BabelCode-HumanEval的结果。

BabelCode将HumanEval翻译成多种编程语言,包括C++、Java、Go、Haskell和Julia。

在大多数语言中,PaLM 2-S*的表现优于PaLM,只有C#和Go这两种语言除外。

翻译

WMT21翻译数据集上的结果。

由于BLEURT与人类对翻译质量的判断相关性更好,因此比BLEU更受青睐。

MQM衡量翻译质量中的错误,并且有专业翻译人员参与。

在提高翻译质量方面,PaLM 2的表现优于PaLM和谷歌翻译。

区域翻译实验设置

特定方言翻译的少样本区域机器翻译(FRMT,Few-shot Regional Machine Translation)基准测试结果。

输入为5次示例,分数使用BLEURT计算。

在所有地区,PaLM 2的表现都优于PaLM和谷歌翻译。

自然语言生成

单次自然语言生成(NLG)评估结果。

评估指标包括用于英语的ROUGE-2,以及使用mT5分词器的其他语言的SentencePiece-ROUGE-2(ROUGE的扩展)。

即使是最小版本的PaLM 2,在多语言生成方面的表现也优于PaLM,PaLM 2-L在不同数据集上实现了从59.4%到100.8%的显著提升。

记忆

平均而言,PaLM 2记住的训练数据比PaLM少。该分析是在英语训练数据上进行的。

当大语言模型(LLM)无意中泄露有关个人的特定信息时,就会发生隐私泄露。这是一个重大问题,尤其是当泄露的信息敏感,可能导致各种社会和技术危害时。即使模型只对训练数据进行一次训练,或者使用数据去重或输出过滤等技术,这种记忆情况仍可能发生。

为了评估PaLM 2的记忆程度,通过对训练序列进行采样并将其分为前缀(前P个标记)和后缀(后S个标记)来进行记忆分析。然后用前缀查询模型,并检查它是否生成相应的后缀。使用贪婪解码来生成后缀。

逐字记忆

分析首先通过使用它们英语预训练数据的共享部分,比较PaLM和PaLM 2的记忆能力。对10,000个独特文档进行采样,并用每个文档的前50个标记提示两个模型,期望模型生成接下来的50个标记(后缀)。结果表明,平均而言,PaLM 2记住的数据明显少于PaLM。

重复的影响

通过考虑每个序列在训练数据中出现的频率,进一步优化分析。当序列只重复几次时,PaLM 2往往比PaLM记住的更少。然而,当n元语法更频繁地重复时,PaLM 2记住它们的可能性更高。这种现象可能受到去重过程的影响,去重会使重复的n元语法更少见,并出现在更多独特的上下文中。

记忆分析的金丝雀(Canaries)

为了更深入地理解记忆情况,作者引入了 “金丝雀” 的概念。金丝雀代表可能未被训练数据提取捕获的稀有或异常数据点。他们设计的金丝雀既是异常值,又与自然训练数据有一定相似性。他们提出了两种类型的金丝雀:交错金丝雀,保留了一些语言属性;打乱金丝雀,去除了序列级别的顺序信息。

金丝雀在不同语言中的分布。

长尾语言的记忆

分析进一步扩展到评估训练数据中代表性较低的语言(称为 “长尾语言”)的记忆风险。结果表明,在这些长尾语言中,记忆更有可能发生,尤其是当异常金丝雀重复出现时。然而,对于真实的训练数据,这种趋势并不总是成立,并且语言规模和记忆率之间没有很强的相关性。

论文

PaLM 2 Technical Report 2305.10403

## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!

本文由mdnice多平台发布


柏企科技圈
23 声望6 粉丝