又到了年底节假日扎堆的时节,首先祝大家各种节日快乐~
很多业务出海的企业日常可能会遇到一个比较麻烦的问题:和海外客户或合作伙伴交流,总会因为语言的隔阂造成很多不便。虽然网上有很多免费的文本甚至Office文档翻译服务,但平时随便用用也就罢了,真要涉及工作中一些机密文档,谁能放心让这些外部服务来翻译!请专职或兼职翻译吧,虽然效果很好,但速度往往很慢,还得公司「不差钱」才行……
别头疼了,你应该知道,亚马逊云科技 (Amazon Web Services)就提供了一个名为Amazon Translate的机器翻译服务,支持全球各大主要语言的双向互译,效果也许不如人工翻译那么好,但胜在速度够快,如果只是希望了解外文资料的大致意思,用这样的服务已经足矣满足大部分场景的需求。
除了把一种语言的文字内容复制粘贴到Amazon Translate中并翻译为指定的语言亚马逊云科技外,最近更新之后的Amazon Translate也开始支持对DOCX、PPTX以及XLSX格式的Office Open XML文档进行翻译。作为一种全托管神经机器翻译服务,Amazon Translate能够高质量地以合理价格提供多达55种语言翻译服务。关于所支持语言的完整列表,请参见受支持的语言与语言代码。支持批量翻译的亚马逊云科技区域,同时也支持文档翻译。请参阅异步批处理查看更多信息。
在本文中,我们将逐步了解如何在亚马逊云科技管理控制台上翻译文档。大家也可以通过亚马逊云科技命令行界面(Amazon CLI)或者Amazon SDK访问Amazon Translate BatchTranslation API进行文档翻译。
解决方案概述
本文将引导大家完成以下步骤:
- 创建一个亚马逊云科技身份与访问管理(Amazon Identity and Access Management,简称IAM)角色,用于访问Amazon Simple Storage Service (Amazon S3)存储桶。
- 按文件类型与语言对文档进行排序。
- 执行批量翻译。
创建IAM角色以访问S3存储桶
在本文中,我们创建一个能够访问账户中所有S3存储桶的角色,用于翻译文档、电子表格以及演示文稿。我们将该角色提供给Amazon Translate,确保其能够访问S3输入与输出位置。关于更多信息,请参阅亚马逊云科技身份与访问管理说明文档。
- 登录至个人亚马逊云科技账户。
- 在IAM控制台的Access management之下,选择Roles。
- 选择Create role。
- 选择Another Amazon account。
- 在Account ID部分,输入ID。
- 前往下一页面。
- 在Filter policies部分,搜索并添加AmazonS3FullAccess策略。
- 前往下一页面。
- 为角色输入一个名称,例如TranslateBatchAPI。
- 查看刚刚创建完成的角色。
- 在Trust relationships选项卡中,选择Edit trust relationship。
- 输入以下服务主体:
"Service": [
"translate.aws.internal",
"translate.amazonaws.com"
],
具体示例,详见以下截屏:
对文档排序
Amazon Translate批量翻译适用于存储在S3存储桶内文件夹中的各类文档。如果直接将文件保存在S3存储桶的根目录中,则批量翻译将无法工作。批量翻译也不支持翻译嵌套文件。因此,我们首先需要将待翻译文档上传至S3存储桶的一个文件夹内,而后对文档进行排序,使当前文件夹内只包含相同类型(DOCX、PPTX、XLSX)相同语言的文件。如果需要翻译多个包含不同文件类型的文档,请对文档进行排序,保证每个Amazon S3前缀只有相同语言的同一种文档格式。
- 在Amazon S3控制台上,选择Create bucket。
- 执行下列步骤创建存储桶。
在本文中,我们创建两个存储桶,分别为:input-translate-bucket与output-translate-bucket。
这些存储桶中分别包含以下文件类型的文件夹:
- docx
- pptx
- xlsx
执行批量翻译
要执行批量翻译,请完成以下步骤:
- 在Amazon Translate控制台上,选择Batch Translation。
- 选择Create job。
在本文中,我们翻译DOCX格式的文档。
- 在Name部分,输入BatchTranslation。
- 在Source language部分,选择En。
- 在Target language部分,选择Es。
- 在Input S3 location部分,输入s3://input-translate-bucket/docx/。
- 在File format部分,选择docx。
- 在Output S3 location部分,输入s3://output-translate-bucket/。
- 在Access permissions部分,选择Use an existing IAM role。
- 在IAM role部分,输入TranslateBatchAPI。
由于这里执行的是异步翻译,因此实际翻译操作要等待机器资源分配完成之后才会正式开始,此过程最多可能需要15分钟。关于执行批量翻译作业的更多信息,请参阅启动批量翻译作业。
以下截屏是BatchTranslation作业的详细信息。
在翻译完成之后,我们可以在S3存储桶的文件夹内找到输出结果,参见以下截屏。
总结
在本文中,我们探讨了如何通过异步批量翻译对DOCX格式的文档进行翻译。关于翻译电子表格与演示文稿,其过程与翻译DOCX文件相同。亚马逊云科技提供的翻译服务Amazon Translate使用简单,且只需要根据翻译的每种格式的文档中的字符数(包含空格)进行付费。我们现在可以在支持批量翻译的所有区域内翻译Office文档。如果还不熟悉Amazon Translate,不妨先从Free Tier免费套餐起步。此套餐将从提交的第一项翻译请求开始,在随后的12个月内每月提供2百万个字符的免费翻译配额。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。