14B小模型逆袭翻译赛道，论文财报实测超Claude，不信试试“我命由我不由天”

都说通用大模型轻松拿捏翻译，结果有人来掀桌了。

来自网易有道的14B翻译小模型，测试达行业第一，翻译质量超越一众国内外主流通用大模型。

它就是子曰翻译大模型2.0（下文简称子曰2.0），在英译中方面轻松超越Claude 3.5 Sonnet等12个主流通用大模型，中译英也和Claude 3.5 Sonnet达到同等水平。

△评测结果展示，罚分越低代表模型越好

简单看个实测例子。我命由我不由天，英文怎么说？

子曰2.0：

I’m the master of my destiny。

Claude 3.5 Sonnet：

My fate is in my own hands, not in heaven’s control.
(Alternative translations could be: “I control my destiny, not the heavens” or “My destiny is determined by me, not by fate”)

14B小模型逆袭翻译赛道，论文财报实测超Claude，不信试试“我命由我不由天”

对比一下，Claude哪怕给出了三个回答，也都没有子曰的更自然简洁有力。

翻译专业领域时子曰2.0也更准确。

对照最新版本的Claude-3.7，子曰2.0准确译出了医学词汇“透明细胞肾细胞癌”。

14B小模型逆袭翻译赛道，论文财报实测超Claude，不信试试“我命由我不由天”

但是Claude-3.7却翻译成了“清细胞肾细胞癌”。

14B小模型逆袭翻译赛道，论文财报实测超Claude，不信试试“我命由我不由天”

没想到，在翻译这类专业领域上，通用大模型的表现还是有待提高啊。

（被AI取代的焦虑可以暂时缓解缓解了）

所以，为啥垂直领域做个小模型，就能轻松打败规模大10倍+的通用大模型呢？

来看子曰2.0的进一步表现。

轻松拿捏论文财报专业翻译

简单总结，子曰2.0在更为专业的翻译场景下，表现更为突出。

翻译的基本要求是“信达雅”，即忠实原文、通顺明白、选词得体。越是专业的领域，翻译难度越大。

因此，我们设置了风格迥异的几个方面来测试专业翻译模型和通用大模型的表现：

论文翻译
财报翻译
诗句翻译

主要考量的维度包括：

准确度
流畅度
不必要增减
优美/地道

首先在语料库的丰富度上，子曰2.0明显更胜一筹。

毕竟丢给它“Strawberry Shake-Shake”，它都知道译为：草莓摇摇奶昔。

14B小模型逆袭翻译赛道，论文财报实测超Claude，不信试试“我命由我不由天”

在古诗翻译上，子曰2.0给出的译文更加传神、保留意境，同时还兼顾了押韵，进一步古诗词的韵味传递到英文之中，还有点翻译家许渊冲的味道在了。

14B小模型逆袭翻译赛道，论文财报实测超Claude，不信试试“我命由我不由天”

这种时候，Claude 3.5 Sonnet相形见绌，只是完成了意思上的翻译，却没能做到传神。

14B小模型逆袭翻译赛道，论文财报实测超Claude，不信试试“我命由我不由天”

学术论文翻译场景中，对准确度要求更高，而且不同领域都有各自的专业词汇，这要求AI翻译不仅要掌握海量专有名词，还能结合上下文分析出对应语境，才能给出正确的译文。

以翻译CVPR2025这篇满分论文为例，给它的翻译任务是：翻译这张图片的图注。

（将图注文字复制后输入给模型，不涉及多模态输入）

14B小模型逆袭翻译赛道，论文财报实测超Claude，不信试试“我命由我不由天”

可以看到原文图注中MSE、MMD都只提供了缩写。子曰2.0准确将英文缩写翻译为了计算机领域的专有词汇，给出了更完整且正确的翻译（下文标粗部分）。

子曰大模型2.0：

图 1.不同数据集蒸馏范式的比较。（a）均方误差（MSE）方法在欧几里得空间（记为 ZR）中比较点对点特征，而最大均值差异（MMD）则在希尔伯特空间（ZH）中评估矩差异。

14B小模型逆袭翻译赛道，论文财报实测超Claude，不信试试“我命由我不由天”

对比Claude 3.5 Sonnet，并没有做到这一点：

图1. 不同数据集蒸馏范式的比较。(a) MSE方法在欧几里得空间(记为ZR)中比较逐点特征，而MMD在希尔伯特空间(ZH)中评估矩分布差异。

14B小模型逆袭翻译赛道，论文财报实测超Claude，不信试试“我命由我不由天”

而对于自己不了解的专有名词，子曰2.0会选择不翻译而不是错译。相对于通用大模型，“幻觉”问题进一步减少。

比如翻译蜜雪冰城招股书的内容时，原文“according to CIC”部分里的CIC（图中红色框），由于提供的文本片段不完整，子曰2.0根据上下文无法得知它是什么名词的缩写，因此选择不翻译。

14B小模型逆袭翻译赛道，论文财报实测超Claude，不信试试“我命由我不由天”

子曰2.0结果：

14B小模型逆袭翻译赛道，论文财报实测超Claude，不信试试“我命由我不由天”

Claude 3.5 Sonnet将CIC翻译成了中投顾问，参考招股书中文版原文，CIC应该指灼识咨询，翻译错误。

14B小模型逆袭翻译赛道，论文财报实测超Claude，不信试试“我命由我不由天”

此外在译文用词方面（图中绿色框），子曰2.0结合语境将expansive翻译为“庞大的”，用来修饰供应链更贴切；Claude则直译为了广泛的，在中文语法上有语病。

语句结构上（图中粉色框），子曰2.0翻译的版本也更简洁、符合国人遣词造句逻辑。

在医学论文中，对于大段翻译，子曰2.0的结果更加自然通顺、符合中文文法，也更利于被理解。

比如翻译论文《Prohormone cleavage prediction uncovers a non-incretin anti-obesity peptide》的讨论部分。

对于如下这句的翻译，Claude 3.5 Sonnet只能做到直译：

使用基因敲除小鼠研究切割肽很困难，因为像BRP这样的小肽片段的治疗效果可能在缺乏亲本蛋白（即BRINP2）的小鼠中无法体现。

子曰2.0的翻译更符合中文表达习惯，先说原因、再说结果，并让翻译结果更加流畅易懂：

由于小肽片段（如 BRP）的治疗效果可能不会在缺乏亲本蛋白（即 BRINP2）的小鼠中体现出来，因此使用基因敲除小鼠来研究裂解肽颇具难度。

14B小模型逆袭翻译赛道，论文财报实测超Claude，不信试试“我命由我不由天”

在更全面维度的评测中，子曰2.0的表现也值得关注。

一方面，在国际权威翻译测试集中，它较上一版本（子曰1.5）有全方位提升。

WMT (Workshop on Machine Translation) 数据集是一系列用于机器翻译的基准数据集。包含多种语言对的翻译数据，这些数据通常来自于新闻文章、议会记录、书籍以及其他公开可用的文本资源。这些数据集被广泛用于训练、评估和比较不同的机器翻译系统。

Flores-200 数据集是Meta构建的一个评估数据集，专门用于机器翻译的高质量基准，涵盖204种语言，并且允许评估模型在 40,000 种不同语言方向上的性能。

14B小模型逆袭翻译赛道，论文财报实测超Claude，不信试试“我命由我不由天”

另一方面，通过严谨的人工采集流程，网易有道构建了涵盖人文学科、商学、生活服务、医疗、科学等19大领域的数据样本集，并制定了全面精细的MQM评测方案，从专业性、准确性、语言惯例和风格等维度打分。

和国内外主流通用大模型的评估结果如下（英译中）：

14B小模型逆袭翻译赛道，论文财报实测超Claude，不信试试“我命由我不由天”

所以，子曰2.0如何做到？

没有被取代，反而变更强

以子曰2.0为底座，网易有道翻译完成了底层技术的迭代，在算法、数据、评估多个维度都带来创新。

在技术层面，子曰2.0在数据、算法以及评估上都进一步升级。

首先，翻译模型作为一个“文科生”，更高质量、更大规模、更丰富领域的训练语料会直接影响模型的翻译质量。

子曰2.0吸纳了由人工清洗的数千万高质量翻译数据，其中包含海量学术论文、国际新闻、权威词典，可以进一步提高模型在专业维度的翻译水平，比通用大模型更懂不同垂直领域。

更进一步让专业翻译人员为海量提示词进行精细化标注，为模型提供更专业权威的参考，以此增强模型领域适应性、优化上下文理解、提升翻译质量。

其次来看核心算法层面，也是本次迭代的重点。

第一，它以子曰教育大模型为基础进行二次训练，进一步提升了模型在翻译任务的表现，使其更具专业性和针对性。

第二，通过蒸馏（也是DeepSeek物美价廉背后的关窍）和大模型融合，子曰2.0在吸收两个大模型知识的同时，还实现了参数精简，能兼顾性能和运行效率、推理效率。

大模型融合通常是将一个或多个“教师”模型的知识传递给“学生”模型，使得学生模型能够在学习新任务同时保留旧知识，可以很好避免模型的灾难性遗忘问题。

第三，引入Online DPO。

DPO是一种基于人类偏好数据进行优化的方法，它避免了传统强化学习中复杂的奖励模型训练和策略优化过程，将偏好学习转化为一个简单的二分类问题，直接优化模型的输出相对概率。

Online DPO更进一步拓展了DPO的能力，在多领域对齐中能快速调整模型以符合特定领域偏好，并允许模型在实时反馈中动态调整，确保在不同偏好数据上的持续优化。

14B小模型逆袭翻译赛道，论文财报实测超Claude，不信试试“我命由我不由天”

最后在评估维度，子曰2.0采用了自研翻译评估模型，其准确率超越当前最先进的评估指标COMET，为翻译大模型性能评估提供可靠的量化数据。

在人工标注与评估上，子曰2.0采用了人工标注的开发集和盲测集。这些数据集覆盖多个领域，由专业人员精细化标注，并且在评估过程中严格分离开发集和盲测集，确保结果的客观和准确。

现在，打开网易有道词典/翻译，通过AI翻译即可体验到子曰2.0的能力。

14B小模型逆袭翻译赛道，论文财报实测超Claude，不信试试“我命由我不由天”

这意味着，大模型浪潮下，原本被认为会被AI取代的翻译App，通过向大模型借力，正在变得更强。

场景为王趋势下，垂直赛道玩家“拿钉找锤”，能更快速带来落地成果。

实际上，在大模型落地趋势中，场景玩家成为第一批将大模型深度结合并产生深远影响的“探险家”。

比如办公领域的WPS、飞书；设计领域的Adobe、美图秀秀等。它们快速完成AI化升级，并带来实际营收上的增长。

这共同验证了一条规律，大模型浪潮下，相比于一个大模型应用承接所有用户需求，更可能发生的情况或许是大模型重塑不同垂直应用。

大模型是一个全新的工具，来撬动更大的需求和价值。

就以翻译领域为例，尽管通用模型可以解决一些普通翻译问题，但是大模型幻觉依旧存在，漏译、错译、多译的情况时有发生，对翻译准确性敏感的用户（比如科研人员），对大模型的翻译结果依旧无法完全信任。

这不是危言耸听，而是许多人真实踩过的坑。尤其是在大篇幅翻译的场景下，人工核对稍有不慎就可能给自己的论文、研究造成负面影响。

14B小模型逆袭翻译赛道，论文财报实测超Claude，不信试试“我命由我不由天”

由此，在垂直领域内，专业的事或许还得交给专业的人。大模型时代，我们或许仍旧需要一个专业的翻译工具。它可以由AI加持，但是翻译出的内容却丝毫不带AI味儿。

大模型东风一吹，不只吹来大模型本身，更吹来一众AI+应用。

新的趋势和浪潮，由他们共同组成。

所以，大模型 or AI翻译软件，你现在更常用哪一个？欢迎评论留言分享感受~

14B小模型逆袭翻译赛道，论文财报实测超Claude，不信试试“我命由我不由天”

轻松拿捏论文财报专业翻译

没有被取代，反而变更强

量子位

引用和评论

每秒生成超30帧视频，支持实时交互！自回归视频生成新框架刷新生成效率

Claude 3.7成精了！偷偷将OpenAI模型换成自己，卡帕西：迄今最好笑的一趴

一夜之间，萝卜快跑拿掉了所有安全员

最强32B中文推理大模型易主：开源免费商用，1/20 DeepSeek-R1参数量SOTA，权重代码数据集全开源

Manus引爆智能体复现潮！DeepSeek已被整合，项目挤满开源榜

配这种CPU，GPU单卡就能跑满血DeepSeek-R1，至强+AMX让预填充速度起飞

AI三小时做的小游戏，9天赚12万！马斯克：AI游戏前景无限