微软Phi-4是一款专为复杂数学推理设计的小型语言模型

Phi-4 模型概述

模型简介

  • 模型名称: Phi-4
  • 开发机构: 微软研究院
  • 参数规模: 140亿参数
  • 主要目标: 提升数学推理能力,超越当前技术水平
  • 发布平台: 最初在Azure AI Foundry上线,现已在Hugging Face上提供,采用MIT许可证

技术创新

  • 合成数据的使用: 在预训练和中训练阶段使用合成数据,提供更渐进的学习路径和更好的推理上下文对齐
  • 有机数据的筛选: 收集并过滤了来自公共网站和外部数据集的高质量有机问题及解决方案
  • 后训练方案: 采用新的后训练技术,包括多领域数据微调和直接偏好优化(DPO)

数据策略

  • 合成数据优势: 与传统有机数据相比,合成数据能更有效地引导模型从问题陈述到解决方案
  • 有机数据重要性: 高质量的天然数据是生成合成数据的基础,轻微错误可能导致合成文档质量严重下降
  • 数据来源: 包括学术论文、教育论坛和编程教程等

后训练阶段

  • 微调步骤: 使用来自数学、编码、推理、对话、模型身份和安全等多样领域的高质量数据进行微调
  • 直接偏好优化: 实施两个DPO步骤,包括使用Pivotal Token Search技术生成期望/非期望结果对,以及利用GPT-4o作为评判标准标记每对结果

性能评估

  • 评估框架: 使用OpenAI的SIMPLE-EVALS框架进行基准测试
  • 性能表现: 在多个基准测试中超过Llama-3.1-405B,并在GPQA和MATH基准测试中超越其教师模型GPT-4o

结论

Phi-4通过创新的训练方法和数据处理策略,显著提升了数学推理能力,不仅在性能上超越了同类模型,也展示了合成数据和后训练技术在提升AI模型能力方面的巨大潜力。

阅读 12
0 条评论