Meta发布Llama 3.2，支持视觉、语音及开放可定制模型 - SegmentFault 思否

Meta发布Llama 3.2，支持视觉、语音及开放可定制模型

发布于 2024-10-07

Meta发布Llama 3.2多模态语言模型

Meta近日发布了其开源语言模型的最新版本——Llama 3.2，这是该模型首次支持多模态功能，涵盖视觉、语音和可定制模型。用户可以通过自然语言命令与视觉数据进行交互，例如识别照片中的物体或编辑图像等。

主要特点

多模态支持：Llama 3.2是首个支持多模态的版本，能够处理图像、语音和文本数据。
模型规模：包括11B和90B参数的视觉模型，以及1B和3B参数的轻量级文本模型，后者专为边缘和移动设备设计。
扩展上下文长度：支持高达128K的上下文长度，适用于摘要生成、指令跟随和文本重写等任务。
视觉模型功能：能够处理文档理解、图像描述和视觉定位等复杂任务。
轻量级模型：1B和3B模型能够在移动设备上运行，提供即时响应和本地数据处理，增强隐私保护。
工具调用：支持工具调用，适合个性化、设备端应用。

开发与部署

开源与定制：提供预训练和指令调优版本，开发者可以使用torchtune和torchchat等工具进行定制。
平台支持：模型可在Hugging Face和Meta官网下载，并支持AWS、Google Cloud和Microsoft Azure等云平台。
Llama Stack：提供简化的部署方案，支持单节点、云和设备端应用，包括命令行界面、多语言客户端代码和Docker容器。

训练与安全

训练过程：基于Llama 3.1文本模型进行多阶段训练，结合图像适配器和编码器，并进行多轮对齐，包括监督微调和拒绝采样。
安全措施：引入Llama Guard 3用于视觉能力，并为轻量级模型优化安全措施，集成到参考实现中供开源社区使用。

市场与法律

市场竞争：Meta CEO马克·扎克伯格将Llama 3.2比作“AI界的Linux”，并表示闭源实验室正试图通过降价来竞争。
区域限制：由于法律原因，Llama 3.2不会在欧盟地区提供。

开发者资源

开发者可以在GitHub上找到更多关于Llama 3.2的信息，包括模型评估和模型卡片，涵盖文本和视觉模型。

Meta Releases Llama 3.2 with Vision, Voice, and Open Customizable Models

https://www.infoq.com/news/2024/10/llama-3-2-multimodal/

阅读 44

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。