简介:DataWorks功能实践系列,帮助您解析业务实现过程中的痛点,提高业务功能使用效率!
往期回顾:DataWorks 功能实践速览01期——数据同步解决方案

功能推荐:独享数据集成资源组
如上期数据同步解决方案介绍,数据集成的批数据同步任务运行时,需要占用一定的计算资源,这些资源即资源组,通常先从数据来源所在的机器抽取数据至资源组所在的机器,再推送至目标数据源所在的机器。

而进行数据同步时,可以根据实际情况规划使用哪种数据集成资源组,资源组规划的关键点包括连通性和性能两方面。
以下就从数据集成资源组的类型与性能、网络连通性两方面,为您介绍数据集成资源组的详情:
Part1:数据集成资源组的类型与性能对比
DataWorks数据集成支持多种不同资源组:
- 独享数据集成资源组:
购买后可独占使用的资源组。在任务高并发执行且无法错峰运行,需要独享的资源组来保障数据快速、稳定地传输时,您可以选择独享资源组。 - 自定义数据集成资源组:
如果您有富余的服务器资源,也可将此部分资源作为DataWorks中任务运行的资源组使用,DataWorks支持自定义资源组。
以上两种数据集成资源组在应用上的能力对比如下表所示:
<span>类别</span> | <span>独享资源组</span> | <span>自定义资源组</span> |
<span>机器资源归属</span> | <span>由DataWorks维护,是自己的租户独享使用的计算资源。</span> | <span>由您自己维护,是属于您的IDC机器。</span> |
<span>网络</span> | <span>支持VPC、公网和任意网络下的阿里云产品。</span> | <span>支持VPC、公网和任意网络下的阿里云产品。</span> |
<span>收费方式</span> | <span>根据机器的规格,包年包月计费。</span> | <span>DataWorks版本按月使用收费。</span> |
<span>支持的数据源</span> | <span>全部数据源</span> | <span>全部数据源</span> |
<span>安全性</span> | <span>高</span> | <span>根据您自身机器所处的环境决定</span> |
<span>任务执行的效率</span><span class="lake-fontsize-9">指任务是否能够分到足够的计算资源,能否以最高性能运行。</span> | <span>高</span> | <span>根据您自身机器所处的环境决定</span> |
<span>可靠性</span><span class="lake-fontsize-9">指任务是否能够按时启动。执行任务时,网络资源是否被其它租户占用,导致任务不能按时产出结果。</span> | <span>高</span> | <span>根据您自身机器所处的环境决定</span> |
<span>适用场景</span> | <span>大量、重要的生产级别的任务。</span> | <span>使用自定义资源组的场景如下:</span><ul><li><span>如果您自身已有计算资源,可以对接阿里云重复使用,无需重新购买。</span></li><li><span>需要同步的数据源全部在IDC内。</span></li></ul> |
<span>推荐指数</span> | <span>★★★★★</span> | <span>★</span> |
非常建议您使用独享数据集成资源组来运行数据集成任务。独享数据集成资源组的购买后,您需要完成网络配置和工作空间绑定,后续即可选择与数据源的网络连通方案进行连通配置了。在此之前,独享数据集成资源组的购买与基础配置的操作详情请参见新增和使用独享数据集成资源组。
### Part2:数据集成资源组的网络连通方案
进行数据同步时,需要根据数据库所在网络环境,通过对应的网络解决方案,实现对应类型资源组与数据库的网络连通。连通方案概览如下。
以下为您重点介绍独享数据集成资源组的网络连通方案详情,其他资源组类型的网络连通方案可进入帮助中心查看。
#### 场景1:数据源具备访问公网的能力
如果数据源具备公网访问能力的话,那么数据源与资源组之间可以直接通过公网互访。
#### 场景2:数据源在VPC网络中,且VPC和DataWorks在同一个地域
如果数据源在VPC网络中,且VPC和DataWorks在同一个地域,那可以将独享数据集成资源组绑定数据源所在VPC。同时需要关注,资源组与DataWorks是否在同一个可用区中,如果不在同一个可用区中,还需要手动添加一下路由,保障资源组与数据源之间网络是连通的。添加路由的操作详情可参见添加路由。
#### 场景3:数据源在VPC网络中,且VPC和DataWorks在不同的地域
如果数据源在VPC网络中,且VPC和DataWorks在不同的地域中,那您需要为独享数据集成资源组绑定一个VPC,然后通过高速通道、VPN或其他网络连通产品连通资源组绑定的VPC与数据源所在的VPC。
常见的网络连通产品包括:
* 云企业网使用场景示例,请参见云企业网。
* 高速通道使用场景示例,请参见高速通道。
* VPN网关使用场景示例,请参见VPN网关。
此外,您依旧需要手动添加一下路由,保障网络连通性。添加路由的操作详情可参见添加路由。
#### 场景4:数据源在IDC内
如果数据源在IDC内,与场景3:数据源在VPC中且与DataWorks不同地域的场景类似,您需要为独享数据集成资源组绑定一个VPC,然后通过高速通道、VPN或其他网络连通产品连通资源组绑定的VPC与数据源所在的VPC。
常见的网络连通产品包括:
* 云企业网使用场景示例,请参见云企业网。
* 高速通道使用场景示例,请参见高速通道。
* VPN网关使用场景示例,请参见VPN网关。
此外,您依旧需要手动添加一下路由,保障网络连通性。添加路由的操作详情可参见添加路由。
#### 场景5:数据源在经典网络
如果数据源在经典网络内,则此场景下,不支持数据源与DataWorks资源组网络连通,建议您将数据源迁移至VPC网络中。
PS:阿里云经典网络已不推荐使用,建议您迁移数据源至VPC。
### Part3:注意事项——白名单的影响
保障资源组与数据源之间网络连通后,您还需保障资源组与数据源之间不会因为白名单的限制而无法进行数据访问,例如,部分数据源设置白名单后会不允许白名单外的IP访问,您需要将资源组的IP添加至数据源的白名单中。
使用不同类型的数据集成资源组时,需要添加到数据源白名单中的IP地址不一致,详情可进入帮助中心查看,以下为您示例,使用独享数据集成资源组时,需要获取并添加到数据源白名单中的IP地址。
* 交换机网段:
* 独享资源组的EIP地址:
## 场景实践
了解了独享数据集成资源组后,您可以参考以下文档进行实操实践。
* 新增和使用独享数据集成资源组
* 同步数据至MaxCompute
> 版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。