Gemma 3n 可用于设备上推理以及与 RAG 和函数调用库一起使用

  • Google宣布Gemma 3n开放使用:Gemma 3n现已在LiteRT Hugging Face社区开放预览,与先前发布的模型一同提供。这是一款支持文本、图像、视频及音频输入的多模态小型语言模型。

    • 参数版本:提供两种参数版本——Gemma 3n 2B与Gemma 3n 4B,均支持文本和图像输入,音频功能即将推出。
  • 针对企业场景:特别适合开发者具备设备资源的企业用例,可在移动端部署更大模型。例如,现场技术员可拍摄照片并提问,仓库或厨房工作人员可通过语音更新库存。
  • 选择性参数激活:采用选择性参数激活技术实现高效参数管理。推理时,模型包含的参数数量多于实际激活参数。
  • 微调与量化:开发者可对基础模型进行微调,并使用新量化工具进行转换/量化。新型量化方案支持更高质量的int4训练后量化,相比bf16,模型体积缩小2.5-4倍,延迟与峰值内存占用显著降低。
  • 设备端检索增强生成(RAG):可用于设备端RAG,通过应用特定数据增强语言模型。由Android平台AI Edge RAG库驱动(即将支持其他平台)。该库采用包含数据导入、分块、索引、嵌入生成、信息检索及响应生成的简易流程,支持全流程自定义。
  • AI Edge设备端函数调用SDK:与Gemma 3n同步发布,目前仅限Android平台。支持模型调用特定函数执行现实操作:通过在Tool对象中描述函数名称、说明及参数,并传递给大语言模型,即可生成结构化函数调用。SDK支持接收LLM的函数调用请求并回传执行结果。
  • Google AI Edge应用库:快速体验新工具的最佳入口。这是一款实验性应用,展示多种模型并支持文本、图像及音频处理。
阅读 23
0 条评论