Google DeepMind 开源 Gemma 2 语言模型
Google DeepMind 最近开源了其小规模语言模型系列的最新版本 Gemma 2。该模型在架构和性能上进行了多项改进,并通过知识蒸馏技术实现了与更大模型竞争的性能。Gemma 2 在同等规模的模型中表现出色,甚至能够与规模是其两倍的模型一较高下。
Gemma 2 的主要改进
- 架构优化:Gemma 2 借鉴了 Google 旗舰模型 Gemini 的设计,引入了 Grouped-Query Attention (GQA) 机制,并混合了全局注意力和局部滑动窗口注意力。
- 模型规模:Google 训练了三种不同规模的 Gemma 2 模型,分别拥有 20 亿、90 亿和 270 亿参数。其中,较小的两个模型通过知识蒸馏技术训练,使用更大的语言模型作为教师。
- 性能表现:在 MMLU、GSM8K 和 Winogrande 等基准测试中,270 亿参数的 Gemma 2 模型超越了基线模型 Qwen1.5 32B,并且与规模更大的 Llama 3 70B 相比,性能差距仅为“几个百分点”。
知识蒸馏的优势
Google 强调,知识蒸馏是一种有效的训练方法,能够通过输出概率训练获得优于纯文本训练的结果。这一技术使得小模型能够具备以往仅在大规模语言模型中才能看到的能力,为未来的研究和开发提供了新的可能性。
Gemma 2 的行业背景
Gemma 2 的发布延续了行业中小规模、开源语言模型的趋势,类似于 Microsoft 的 Phi 和 Meta 的 Llama。这些模型通过架构改进(如 GQA)和高质量训练数据,实现了超出小规模模型预期的性能。
评估与用户反馈
- 基准测试:Gemma 2 在多个基准测试中表现出色,特别是在 Chatbot Arena 中,270 亿参数的 Gemma 2 目前是排名最高的开源模型,甚至超过了 Llama 3 70B。90 亿参数的版本也在相同参数范围内的模型中表现优异。
- 用户评价:用户对 Gemma 2 的多语言能力表示赞赏,认为其在小众语言中的表现接近完美,甚至在离线环境下也能作为有效的翻译工具运行。
获取与使用
用户可以通过以下方式访问 Gemma 2 模型:
- Google AI Studio 和 Google Cloud Platform 的 Vertex AI 提供在线访问。
- Huggingface 和 Kaggle 提供 90 亿和 270 亿参数模型的下载,20 亿参数模型即将推出。
- 模型采用 Apache 2.0 许可证,适合商业用途。
- Google 还发布了 Gemma 2 使用指南,提供了使用该模型的指导和示例。
未来展望
AI 研究员 Sebastian Raschka 对 Gemma 2 的研究论文进行了评论,认为其具有多个值得注意的特性,同时也建议与更新的 Qwen 2 模型 进行对比。总体而言,Gemma 2 的发布为小规模语言模型的研究和应用开辟了新的方向。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。