Gemma 3 1B：专为移动和 Web 应用设计的小型语言模型

主要观点

Gemma 3 1B 是一款小型语言模型（SLM），专为移动和 Web 应用设计，具有轻量级、低延迟和隐私保护的特点。其核心优势包括快速下载、本地运行、无需云服务支持以及用户数据隐私保护。

功能与应用：
- 生成数据描述和标题。
- 支持对话和文档处理。
- 基于应用状态创建对话。
- 使用 AI Edge RAG SDK 处理长文档并回答用户问题。
微调与转换：
- 可通过合成推理数据集和 LoRA 适配器进行微调。
- Google 提供 Colab 笔记本，展示如何将微调后的模型转换为 LiteRT 格式（原 TensorFlow Lite 格式）。
开发者资源：
- Android 示例应用：展示如何使用 Gemma 3 1B 进行文本生成、信息检索、摘要生成、邮件起草等功能。
- MediaPipe LLM Inference API：支持模型集成。
- LiteRT 栈：也可用于模型集成。
iOS 支持：
- 目前仅提供使用 Gemma 2 的旧版示例应用，因为 MediaPipe LLM Inference API 尚未支持 iOS 上的 Gemma 3。
性能优化：
- Gemma 3 1B 在性能上显著优于 Gemma 2 2B，同时部署大小仅为后者的 20%。
- 通过量化感知训练、优化 KV 缓存性能、改进权重布局以及共享预填充和解码阶段的权重，实现了性能提升。
- 优化适用于所有开放权重模型，但最终效果因设备和运行时配置而异。
硬件要求：
- 最佳性能需要至少 4GB 内存的移动设备，支持在 CPU 或 GPU 上运行。
下载与许可：
- 模型可通过 HuggingFace 下载，遵循 Google 的使用许可。