Meta发布Llama 3.2多模态语言模型
Meta近日发布了其开源语言模型的最新版本——Llama 3.2,这是该模型首次支持多模态功能,涵盖视觉、语音和可定制模型。用户可以通过自然语言命令与视觉数据进行交互,例如识别照片中的物体或编辑图像等。
主要特点
- 多模态支持:Llama 3.2是首个支持多模态的版本,能够处理图像、语音和文本数据。
- 模型规模:包括11B和90B参数的视觉模型,以及1B和3B参数的轻量级文本模型,后者专为边缘和移动设备设计。
- 扩展上下文长度:支持高达128K的上下文长度,适用于摘要生成、指令跟随和文本重写等任务。
- 视觉模型功能:能够处理文档理解、图像描述和视觉定位等复杂任务。
- 轻量级模型:1B和3B模型能够在移动设备上运行,提供即时响应和本地数据处理,增强隐私保护。
- 工具调用:支持工具调用,适合个性化、设备端应用。
开发与部署
- 开源与定制:提供预训练和指令调优版本,开发者可以使用torchtune和torchchat等工具进行定制。
- 平台支持:模型可在Hugging Face和Meta官网下载,并支持AWS、Google Cloud和Microsoft Azure等云平台。
- Llama Stack:提供简化的部署方案,支持单节点、云和设备端应用,包括命令行界面、多语言客户端代码和Docker容器。
训练与安全
- 训练过程:基于Llama 3.1文本模型进行多阶段训练,结合图像适配器和编码器,并进行多轮对齐,包括监督微调和拒绝采样。
- 安全措施:引入Llama Guard 3用于视觉能力,并为轻量级模型优化安全措施,集成到参考实现中供开源社区使用。
市场与法律
- 市场竞争:Meta CEO马克·扎克伯格将Llama 3.2比作“AI界的Linux”,并表示闭源实验室正试图通过降价来竞争。
- 区域限制:由于法律原因,Llama 3.2不会在欧盟地区提供。
开发者资源
开发者可以在GitHub上找到更多关于Llama 3.2的信息,包括模型评估和模型卡片,涵盖文本和视觉模型。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。