Kimi k1.5 强势来袭:超越 OpenAI 与 Claude,重塑 AI 格局?
📖阅读时长:15分钟
🕙发布时间:2025-02-04
近日热文:全网最全的神经网络数学原理(代码和公式)直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
知乎LLM专栏
知乎【柏企】
公众号【柏企科技说】【柏企阅文】
此前,DeepSeek推出了如DeepSeek—v3和DeepSeek-R1等重磅产品,赚足了眼球。如今,MoonShot AI的Kimi k1.5更是惊艳众人,在一些主要的基准测试中,它的表现超越了GPT-4o和Claude3.5 Sonnet等知名模型。
一、Kimi k1.5究竟是什么?
Kimi 1.5是MoonShot AI研发的一款多模态大语言模型(LLM),它运用了强化学习(RL)技术进行训练。其设计目标十分宏大,旨在文本、视觉和编码等多个领域的各类推理任务中都能展现卓越性能。
二、Kimi 1.5的核心亮点
(一)强化学习(RL)训练
Kimi 1.5借助强化学习来提升推理能力。与传统依赖静态数据集的模型不同,它能够在探索过程中从奖励机制里学习新知识。而且,Kimi 1.5所采用的RL框架追求简洁高效,摒弃了像蒙特卡洛树搜索或值函数这类复杂技术。
(二)长上下文缩放
它将上下文窗口扩展到了128k个令牌,这一突破使得Kimi 1.5在处理更长的推理链和更复杂的问题时游刃有余。为了进一步提升训练效率,该模型还运用了部分推出来重复利用先前轨迹的部分内容,避免了一切从头开始生成的繁琐过程。
(三)改进的策略优化
在策略优化方面,Kimi 1.5采用了在线镜像下降的变体方法,这种方法十分稳健。同时,它还结合了有效的采样策略和长度惩罚机制,双管齐下,大幅提升了模型性能。这样的设计能够鼓励模型探索多样化的推理路径,增强解决复杂问题的能力。
这里给大家通俗地解释一下在线镜像下降。假设你每天都要上学,需要在Route A、Route B和Route C这几条路线中选择一条去学校,你想找到一条最不堵车、耗时最短的路线。第一天,你选择了Route A,到达学校后你发现这次花了15分钟。第二天,你就会参考第一天的经验,如果Route A花费时间短,你可能会继续选择它;要是第一天Route A花了30分钟,那你第二天可能就会尝试Route B或Route C。就这样,你每天都根据前一天的经验来调整路线选择,这个过程其实就和在线镜像下降类似,通过不断学习过往经验找到最优选择。
(四)多模式功能
Kimi 1.5在文本数据和视觉数据上进行联合训练,这赋予了它强大的跨模态推理能力。像解读图表、示意图这类既需要文本理解又需要视觉分析的任务,Kimi 1.5也能轻松应对。
(五)Long2Short方法
Kimi 1.5引入了独特的技术,能够将长思维链(CoT)模型的推理能力迁移到短CoT模型中。这就好比机器学习里的“知识蒸馏”技术,在有限的令牌预算下提升了模型性能。为了进一步提高令牌效率,它还采用了模型合并、最短拒绝采样和long2short RL等方法。
三、Kimi k1.5的惊艳表现
MoonShot AI团队公布了Kimi k1.5在长链思维(Long CoT)和短链思维(Short CoT)方面的基准测试结果。长链思维(CoT)在解决复杂问题时,需要详细、逐步的推理过程,通常需要消耗更多的计算资源;而短链思维(Short CoT)则致力于用更少的步骤达成类似的结果,虽然速度更快、效率更高,但可能在推理的全面性上稍逊一筹。
(一)性能和指标(长链思维CoT)
数学领域
- AIME 2024:Kimi的成绩达到了77.5%,显著高于OpenAI o1的74.4%,其他一些模型(如QwQ - 32B)更是低至50%。
- MATH 500:Kimi以96.2%的成绩占据领先地位,微微超越OpenAI o1的94.8%,而其他模型的成绩则低至90%。
代码领域
- Codeforces:Kimi获得了94分,与OpenAI o1持平,但远远领先于QwQ - 32B的62分。
- LiveCodeBench v5:Kimi的表现得分是62.5%,仅次于OpenAI o1的67.2% ,不过相比QwQ - 32B的40.6%,优势还是非常明显的。
视觉领域
- MathVista:Kimi以74.9%的成绩领先,击败了OpenAI o1的71%以及其他竞争对手。
- MMMU:在这个基准测试中,Kimi的表现落后于OpenAI o1。
(二)性能和指标(短链思维Short CoT)
数学领域
- AIME 2024 (Pass@1):Kimi k1.5的得分是60.8,而OpenAI O1仅为9.3,Kimi k1.5在数学即时解题方面优势巨大。
- Math - 500 (EM):Kimi k1.5的分数为94.8,远超OpenAI O1的74.6,再次证明了它在数学推理上的优势。
- 代码领域
LiveCodeBench v4 24.08 - 24.11 (Pass@1 - CoT):Kimi k1.5的得分为47.3,高于OpenAI O1的33.4,在要求即时执行和准确性的代码相关任务中表现更优。 视觉领域
- MathVista_test(Pass@1):Kimi k1.5得分70.1,高于OpenAI O1的63.8,在涉及数学推理的视觉任务中表现出色。
- MMVLU_val(Pass@1):Kimi k1.5得分为68,略低于OpenAI O1的69.1,两个模型在这项视觉任务中的表现十分接近。
常规领域
- MMLU (EM):Kimi k1.5得分为87.4,比OpenAI O1的87.2略高,在常识任务上稍有优势。
- IF - Eval (Prompt Strict):Kimi k1.5得分为87.2,高于OpenAI O1的84.3,在需要严格遵循提示的任务中表现更佳。
- CLUEWSC (EM):Kimi k1.5得分为91.7,高于OpenAI O1的87.9,在中文理解任务上表现更胜一筹。
- C - Eval (EM):Kimi k1.5得分为88.3,远高于OpenAI O1的76,在综合评估任务方面进步显著。
从各项测试结果来看,Kimi k1.5的表现堪称惊艳,甚至有可能对DeepSeek系列模型发起挑战。
推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。