Meta发布Llama 3.2,支持视觉、语音及开放可定制模型

Meta发布Llama 3.2多模态语言模型

Meta近日发布了其开源语言模型的最新版本——Llama 3.2,这是该模型首次支持多模态功能,涵盖视觉、语音和可定制模型。用户可以通过自然语言命令与视觉数据进行交互,例如识别照片中的物体或编辑图像等。

主要特点

  1. 多模态支持:Llama 3.2是首个支持多模态的版本,能够处理图像、语音和文本数据。
  2. 模型规模:包括11B和90B参数的视觉模型,以及1B和3B参数的轻量级文本模型,后者专为边缘和移动设备设计。
  3. 扩展上下文长度:支持高达128K的上下文长度,适用于摘要生成、指令跟随和文本重写等任务。
  4. 视觉模型功能:能够处理文档理解、图像描述和视觉定位等复杂任务。
  5. 轻量级模型:1B和3B模型能够在移动设备上运行,提供即时响应和本地数据处理,增强隐私保护。
  6. 工具调用:支持工具调用,适合个性化、设备端应用。

开发与部署

  1. 开源与定制:提供预训练和指令调优版本,开发者可以使用torchtune和torchchat等工具进行定制。
  2. 平台支持:模型可在Hugging Face和Meta官网下载,并支持AWS、Google Cloud和Microsoft Azure等云平台。
  3. Llama Stack:提供简化的部署方案,支持单节点、云和设备端应用,包括命令行界面、多语言客户端代码和Docker容器。

训练与安全

  1. 训练过程:基于Llama 3.1文本模型进行多阶段训练,结合图像适配器和编码器,并进行多轮对齐,包括监督微调和拒绝采样。
  2. 安全措施:引入Llama Guard 3用于视觉能力,并为轻量级模型优化安全措施,集成到参考实现中供开源社区使用。

市场与法律

  1. 市场竞争:Meta CEO马克·扎克伯格将Llama 3.2比作“AI界的Linux”,并表示闭源实验室正试图通过降价来竞争。
  2. 区域限制:由于法律原因,Llama 3.2不会在欧盟地区提供。

开发者资源

开发者可以在GitHub上找到更多关于Llama 3.2的信息,包括模型评估和模型卡片,涵盖文本和视觉模型。

阅读 41
0 条评论