头图

图片
HyperWrite

就在刚刚,一个初创团队 HyperWrite 打造的模型 Reflection 70B 横空出世,以惊人的99.2%准确率在 GSM8K 数学测试中一举超越了 GPT-4 等顶级商业模型,瞬间引爆了整个AI圈。这个由小型创业团队  HyperWrite 打造的模型,是如何在短短三周内完成训练并达到如此卓越的性能?让我们一起揭开 Reflection 70B 的秘密。

Reflection 70B

图片
Reflection 70B

Reflection Llama-3.1 70B 是目前世界顶级的开源 LLM,使用一种称为 Reflection-Tuning 的新技术进行训练。Reflection 70B 最引人注目的特点是其独特的自我纠错机制。这个模型采用了一种名为"Reflection-Tuning"的创新训练方法,使其能够在生成回答的过程中不断反思和修正自己的错误。

在回答问题时,模型会先在<thinking>标签内输出其推理过程。如果在这个过程中发现了错误,它会立即在<reflection>标签中进行自我纠正。只有当模型确信自己的推理无误时,才会在<output>标签内给出最终答案。

性能介绍

图片
超强性能

Reflection 70B 在 GSM8K 数学推理测试中,它取得了99.2%的惊人成绩,这个分数已经接近人类专家的水平。要知道,GSM8K 测试集中可能存在超过1%的错误答案,这意味着 Reflection 70B 的表现几乎完美无缺。

不仅如此,在 MMLU、MATH、IFEval 等多个权威基准测试中, Reflection 70B 都全面超越了 GPT-4o、Claude 3 Opus、Gemini 1.5 Pro 等顶级商业模型,以及 Llama 3.1 405B 等强大的开源模型。

图片
Reflection 405B 版本预告

Reflection 70B 的成功只是一个开始。HyperWrite 团队已经宣布,他们即将推出更强大的 Reflection 405B 版本。这个即将面世的模型有望在性能上远超当前市面上最顶尖的闭源模型,包括 OpenAI 的 GPT-4。 

有关厚德云

厚德云致力于为用户提供稳定、可靠、易用、省钱的 GPU 算力解决方案。海量 GPU 算力资源租用,就在厚德云。


厚德云
6 声望6 粉丝

厚德云是一个专业的 GPU 算力云平台,专注于为人工智能从业者提供高效、便捷、灵活的 GPU 算力资源租用服务。我们旨在帮助客户加速人工智能的研发和应用进程,实现业务的快速发展。