Gemma 3n 引入用于增强移动 AI 推理的新技术

主要观点:Gemma 3n 去年 5 月早期预览后正式发布,面向移动优先的设备端 AI 应用,采用新技巧提高效率和性能,如 per-layer embeddings 和 transformer nesting。
关键信息

  • 使用 Per-Layer Embeddings(PLE)减少运行模型所需的 RAM 且总参数不变,50 亿参数变体只需 20 亿加载到加速器,80 亿变体只需 40 亿。
  • MatFormer 技术可让 Transformer 嵌套,实现弹性推理,允许开发者选择全模型或其子模型,还支持 Mix-n-Match 方法创建中间尺寸版本。
  • 未来 Gemma 3n 将完全支持弹性推理,可根据任务和设备负载动态切换。
  • 新功能 KV cache sharing 可加速首次令牌时间,对长上下文特别有效,比 Gemma 3 4B 预填充性能提升 2 倍。
  • 具有原生多模态能力,音频编码器可实现设备端自动语音识别和语音翻译,能处理任意长音频但初始发布时限制为 30 秒。
  • 支持 256x256、512x512 和 768x768 像素分辨率,在 Google Pixel 设备上每秒可处理 60 帧,量化时比 Gemma 3 提速 13 倍(未量化时提速 6.5 倍),内存占用小 4 倍。
    重要细节
  • 相关链接提供更多信息。
  • Matryoshka Transformer 的相关论文介绍相关技术。
  • Gemma 3n MatFormer 实验室的相关 Colab 链接用于创建中间尺寸版本。
  • 音频编码器每 160ms 音频生成一个令牌,每秒约 6 个令牌,对英语与西、法、意、葡语翻译效果好。
阅读 138
0 条评论