IBM Granite 3.2 带来新的视觉语言模型、思维链推理和改进的时间序列

IBM 推出 Granite 3.2 多模态和推理模型

主要观点

IBM 发布了 Granite 3.2 多模态和推理模型,该模型在多个方面进行了显著改进,包括推理能力、视觉语言模型(VLM)和更高效的部署版本。Granite 3.2 的推出旨在为企业提供更强大的 AI 解决方案。

关键信息和重要细节

1. 推理能力增强

  • Granite 3.2 引入了实验性的链式思维推理能力,显著提升了其前代模型的性能。
  • 推理能力被集成到 Instruct 模型中,用户可以根据任务需求选择开启或关闭推理功能。
  • 使用了推理扩展技术,该技术允许模型生成多个答案,并根据奖励模型选择最佳答案,应用于推理过程。

2. 视觉语言模型(VLM)

  • Granite Vision 3.2 2B 是一个轻量级 VLM,主要用于文档理解。
  • 在企业基准测试(如 DocVQA 和 ChartQA)中,该模型表现优于更大的模型。
  • 使用了特定的数据集 DocFM 进行训练,该数据集包含企业数据,如图表、流程图和示意图。

3. Guardian 模型

  • Granite Guardian 3.2 是一个安全护栏模型,能够检测提示和响应中的风险。
  • 提供了新的口头化置信度功能,通过提供置信度值来更细致地评估潜在风险。
  • 提供了两个变体:Guardian 3.2 5B 和 Guardian 3.2 3B-A800M,后者在推理时仅激活 8 亿个参数。

4. 时间序列模型(TTM)

  • Granite 3.2 引入了新的时间序列模型,支持周和日预测,扩展了前代模型的分钟到小时分辨率。
  • TTM-R2 模型在点预测准确性(MASE)方面表现优异,并在概率预测(CRPS)方面排名前五。

5. 性能与优化

  • Granite 3.2 在 MATH500 和 AIME2024 数学推理基准测试中表现出色,甚至超过了 GPT-4o-0513 和 Claude3.5-Sonnet-1022 等更大的模型。
  • 尽管模型规模较小(8B 和 2B 参数),但在特定任务中表现优异,可能更适合企业环境中的专门任务。

6. 社区反应

  • 一些 Reddit 用户对 Granite 3.2 的性能表示印象深刻,但也有用户质疑其是否过度拟合某些基准测试而忽略其他任务。
  • 有人推测 IBM 的模型主要针对企业市场,尤其是在法律保障和知识产权问题方面。

7. 模型可用性

  • 所有 Granite 模型均以 Apache 2.0 许可证发布,可在 HuggingFace、watsonx.ai、Ollama 和 LM Studio 上获取。

总结

IBM 的 Granite 3.2 模型通过增强推理能力、引入高效的视觉语言模型和安全护栏模型,为企业提供了更强大的 AI 解决方案。尽管模型规模较小,但在特定任务中表现出色,可能成为企业环境中的理想选择。

阅读 9 (UV 9)
0 条评论