5

image

又到了年底节假日扎堆的时节,首先祝大家各种节日快乐~

很多业务出海的企业日常可能会遇到一个比较麻烦的问题:和海外客户或合作伙伴交流,总会因为语言的隔阂造成很多不便。虽然网上有很多免费的文本甚至Office文档翻译服务,但平时随便用用也就罢了,真要涉及工作中一些机密文档,谁能放心让这些外部服务来翻译!请专职或兼职翻译吧,虽然效果很好,但速度往往很慢,还得公司「不差钱」才行……

别头疼了,你应该知道,亚马逊云科技 (Amazon Web Services)就提供了一个名为Amazon Translate的机器翻译服务,支持全球各大主要语言的双向互译,效果也许不如人工翻译那么好,但胜在速度够快,如果只是希望了解外文资料的大致意思,用这样的服务已经足矣满足大部分场景的需求。

除了把一种语言的文字内容复制粘贴到Amazon Translate中并翻译为指定的语言亚马逊云科技外,最近更新之后的Amazon Translate也开始支持对DOCX、PPTX以及XLSX格式的Office Open XML文档进行翻译。作为一种全托管神经机器翻译服务,Amazon Translate能够高质量地以合理价格提供多达55种语言翻译服务。关于所支持语言的完整列表,请参见受支持的语言与语言代码。支持批量翻译的亚马逊云科技区域,同时也支持文档翻译。请参阅异步批处理查看更多信息。

在本文中,我们将逐步了解如何在亚马逊云科技管理控制台上翻译文档。大家也可以通过亚马逊云科技命令行界面(Amazon CLI)或者Amazon SDK访问Amazon Translate BatchTranslation API进行文档翻译。

解决方案概述

本文将引导大家完成以下步骤:

创建IAM角色以访问S3存储桶

在本文中,我们创建一个能够访问账户中所有S3存储桶的角色,用于翻译文档、电子表格以及演示文稿。我们将该角色提供给Amazon Translate,确保其能够访问S3输入与输出位置。关于更多信息,请参阅亚马逊云科技身份与访问管理说明文档

  • 登录至个人亚马逊云科技账户。
  • 在IAM控制台的Access management之下,选择Roles。
  • 选择Create role。
    image
  • 选择Another Amazon account。
  • 在Account ID部分,输入ID。

image

  • 前往下一页面。
  • 在Filter policies部分,搜索并添加AmazonS3FullAccess策略。
    image
  • 前往下一页面。
  • 为角色输入一个名称,例如TranslateBatchAPI。
  • 查看刚刚创建完成的角色。
  • 在Trust relationships选项卡中,选择Edit trust relationship。
    image
  • 输入以下服务主体:
"Service": [
"translate.aws.internal",
"translate.amazonaws.com"
],

具体示例,详见以下截屏:
image

对文档排序

Amazon Translate批量翻译适用于存储在S3存储桶内文件夹中的各类文档。如果直接将文件保存在S3存储桶的根目录中,则批量翻译将无法工作。批量翻译也不支持翻译嵌套文件。因此,我们首先需要将待翻译文档上传至S3存储桶的一个文件夹内,而后对文档进行排序,使当前文件夹内只包含相同类型(DOCX、PPTX、XLSX)相同语言的文件。如果需要翻译多个包含不同文件类型的文档,请对文档进行排序,保证每个Amazon S3前缀只有相同语言的同一种文档格式。

  • 在Amazon S3控制台上,选择Create bucket。
  • 执行下列步骤创建存储桶。
    image

在本文中,我们创建两个存储桶,分别为:input-translate-bucket与output-translate-bucket。
image

这些存储桶中分别包含以下文件类型的文件夹:

  • docx
  • pptx
  • xlsx
    image

执行批量翻译

要执行批量翻译,请完成以下步骤:

image

在本文中,我们翻译DOCX格式的文档。

  • 在Name部分,输入BatchTranslation。
  • 在Source language部分,选择En。
  • 在Target language部分,选择Es。
  • 在Input S3 location部分,输入s3://input-translate-bucket/docx/。
  • 在File format部分,选择docx。
  • 在Output S3 location部分,输入s3://output-translate-bucket/。
  • 在Access permissions部分,选择Use an existing IAM role。
  • 在IAM role部分,输入TranslateBatchAPI。

由于这里执行的是异步翻译,因此实际翻译操作要等待机器资源分配完成之后才会正式开始,此过程最多可能需要15分钟。关于执行批量翻译作业的更多信息,请参阅启动批量翻译作业

以下截屏是BatchTranslation作业的详细信息。
image

在翻译完成之后,我们可以在S3存储桶的文件夹内找到输出结果,参见以下截屏。
image

总结

在本文中,我们探讨了如何通过异步批量翻译对DOCX格式的文档进行翻译。关于翻译电子表格与演示文稿,其过程与翻译DOCX文件相同。亚马逊云科技提供的翻译服务Amazon Translate使用简单,且只需要根据翻译的每种格式的文档中的字符数(包含空格)进行付费。我们现在可以在支持批量翻译的所有区域内翻译Office文档。如果还不熟悉Amazon Translate,不妨先从Free Tier免费套餐起步。此套餐将从提交的第一项翻译请求开始,在随后的12个月内每月提供2百万个字符的免费翻译配额。

image


亚马逊云开发者
2.9k 声望9.6k 粉丝

亚马逊云开发者社区是面向开发者交流与互动的平台。在这里,你可以分享和获取有关云计算、人工智能、IoT、区块链等相关技术和前沿知识,也可以与同行或爱好者们交流探讨,共同成长。