Gemma 3n 可用于设备上推理以及与 RAG 和函数调用库一起使用

Google宣布Gemma 3n开放使用：Gemma 3n现已在LiteRT Hugging Face社区开放预览，与先前发布的模型一同提供。这是一款支持文本、图像、视频及音频输入的多模态小型语言模型。
- 参数版本：提供两种参数版本——Gemma 3n 2B与Gemma 3n 4B，均支持文本和图像输入，音频功能即将推出。
针对企业场景：特别适合开发者具备设备资源的企业用例，可在移动端部署更大模型。例如，现场技术员可拍摄照片并提问，仓库或厨房工作人员可通过语音更新库存。
选择性参数激活：采用选择性参数激活技术实现高效参数管理。推理时，模型包含的参数数量多于实际激活参数。
微调与量化：开发者可对基础模型进行微调，并使用新量化工具进行转换/量化。新型量化方案支持更高质量的int4训练后量化，相比bf16，模型体积缩小2.5-4倍，延迟与峰值内存占用显著降低。
设备端检索增强生成（RAG）：可用于设备端RAG，通过应用特定数据增强语言模型。由Android平台AI Edge RAG库驱动（即将支持其他平台）。该库采用包含数据导入、分块、索引、嵌入生成、信息检索及响应生成的简易流程，支持全流程自定义。
AI Edge设备端函数调用SDK：与Gemma 3n同步发布，目前仅限Android平台。支持模型调用特定函数执行现实操作：通过在Tool对象中描述函数名称、说明及参数，并传递给大语言模型，即可生成结构化函数调用。SDK支持接收LLM的函数调用请求并回传执行结果。
Google AI Edge应用库：快速体验新工具的最佳入口。这是一款实验性应用，展示多种模型并支持文本、图像及音频处理。