技术编辑:鸣飞 发自北京
SegmentFault 思否报道丨公众号:SegmentFault
科技巨头谷歌、微软和Facebook都在将机器学习的经验教训应用到翻译领域,但一家名为DeepL的小公司却超越了他们,提高了这个领域的标准。它的翻译工具的速度不亚于那些规模庞大的竞争对手,但比我们尝试过的任何一款翻译工具都要准确和细致。
经过几次试验,我们都认为DeepL的翻译普遍优于Google Translate和Bing的翻译。Google Translate经常会去找一个非常直白的翻译,错过了一些细微的差别和成语(或者是把这些成语翻译成错了),而DeepL经常提供一个更自然的翻译,更接近于一个训练有素的翻译者的翻译。
DeepL从Linguee演化而来
DeepL诞生于同样优秀的Linguee,这是一款已经存在多年的翻译工具,虽然很受欢迎,但一直没有达到谷歌翻译的水平--毕竟后者在品牌和地位上有很大的优势。Linguee的联合创始人Gereon Frahling曾在Google Research工作过,但在2007年离开Google并开始了自己的新的事业Linguee。
这支团队多年来一直致力于机器学习,从事与核心翻译相邻的任务,但直到去年,他们才开始认真地研究一个全新的系统和公司,而这两个系统和公司的名字都将是DeepL。
Frahling提到现在时机已经成熟:"我们已经建立了一个神经翻译网络,其中包含了大部分最新的发展,我们在其中加入了自己的想法。"
一个由超过10亿个翻译和查询组成的庞大数据库,再加上通过在网络上搜索类似的片段进行落地翻译的方法,为新模型的训练打下了坚实的基础。他们还把他们声称的世界上第23台最强大的超级计算机放在了一起,位于冰岛境内。
DeepL的翻译服务使用了搭建在Linguee数据库之上的卷积神经网络及另一种并未公布的专有方法涉及注意力机制。DeepL GmbH拥有一台浮点性能为5 Petaflops的机器,用于其翻译服务的训练和生产。
由大学、研究机构以及Linguee公司的竞争对手所公布的发展情况表明,卷积神经网络才是发展的方向,而不是该公司之前一直使用的递归神经网络。现在真的不是深入研究CNNs和RNNNs之间的区别的地方,所以必须要说的是,对于长的、复杂的相关词串的准确翻译,只要你能控制好它的弱点,前者是一个更好的选择。
例如,CNN大致可以说是可以一次解决一个单词的句子。但当比如经常发生的情况,句尾的一个词决定了句子开头的一个词应该如何组成时,这就成了问题。通读整个句子,只是发现网络选取的第一个词是错误的,然后再根据这个知识重新开始,这是很浪费的,所以DeepL和机器学习领域的其他人应用了 "注意力机制",监控这种潜在的绊脚石,并在CNN转移到下一个词或短语之前解决它们。
关于隐私政策
无论是DeepL Pro还是免费的DeepL Translator都不允许被用于翻译“包含任何种类个人资料的文本” 与免费版不同,DeepL Pro宣称并不会储存翻译文本。更多可以查看他们的privacy。
感兴趣的同学们可以试一试,相信Deepl会成为你新的助力你翻译的生产力工具。我们也非常欢迎对Deepl背后技术的同学们分享更多他们更多技术相关的细节。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。