谷歌宣布推出支持Bard的最先进PaLM 2语言模型

Google DeepMind 发布 PaLM 2 大型语言模型

Google DeepMind 最近发布了 PaLM 2，这是一个大型语言模型（LLM），为 Bard 和超过 25 个其他产品功能提供支持。PaLM 2 在广泛的基准测试中显著优于前代 PaLM 模型，同时更小且运行成本更低。

PaLM 2 的主要特点

Google CEO Sundar Pichai 在 Google I/O '23 上宣布了 PaLM 2。该模型在代码生成、推理和多语言处理等多种任务上表现出色，并提供四种不同大小的版本，其中包括一个轻量级版本 Gecko，专为移动设备设计。在 NLP 基准测试中，PaLM 2 表现出比 PaLM 更好的性能，并在许多任务中达到了新的最先进水平，特别是在 BIG-bench 基准测试中。

PaLM 2 的应用

除了为 Bard 提供支持外，PaLM 2 还是许多其他产品的基础，包括专门针对医学领域微调的 Med-PaLM 2 和专注于网络安全的 Sec-PaLM。Google 表示，PaLM 2 展示了各种大小和速度的高性能模型的影响，以及多功能 AI 模型为每个人带来的实际好处。

PaLM 2 的技术改进

Google 在 PaLM 2 上进行了多项改进以提升模型性能。首先，他们研究了模型扩展定律，确定了训练计算、模型大小和数据大小的最佳组合。他们发现，对于给定的计算预算，数据和模型大小应“大致 1:1”比例扩展，而之前的研究者将模型大小扩展为数据大小的 3 倍。

多语言能力的提升

为了提升 PaLM 2 的多语言能力，Google 在训练数据集中加入了更多语言，并更新了模型训练目标。原始数据集以英语为主，而新数据集则来自更多样化的语言和领域。PaLM 2 使用多种目标的“调优混合”进行训练，而不仅仅是语言建模目标。

性能评估

Google 在六大类 NLP 基准测试中评估了 PaLM 2，包括推理、编码、翻译、问答、分类和自然语言生成。评估的重点是将其性能与原始 PaLM 进行比较。在 BIG-bench 上，PaLM 2 显示出“大幅改进”，在分类和问答任务中，最小的 PaLM 2 模型也达到了与更大 PaLM 模型“竞争”的性能。在推理任务中，PaLM 2 也与 GPT-4“竞争”，并在 GSM8K 数学推理基准测试中优于 GPT-4。

用户反馈

在 Reddit 上关于 PaLM 2 的讨论中，一些用户评论说，尽管其输出不如 GPT-4，但 PaLM 2 明显更好。一位用户提到，PaLM 2 的扩展性和速度使其能够在产品中免费或低成本实施，并且可以快速伴随搜索结果。

技术报告

PaLM 2 的技术报告页面在 Papers with Code 上列出了该模型在多个 NLP 基准测试中的表现。