3

1.为什么要使用数据抽取

(1)为了不妨碍业务数据的读取和写入,需要进行数据的抽取,抽取到另外数据库表进行读取
(2)对某些总计数据可以进行预先计算, 抽取到另外数据库表
(3)随访业务数据库为mongodb , 统计程序编程效率低,需要转成sql 类数据库提高效率

2.工具

使用 kettle 开源etl工具
网址:http://community.pentaho.com/projects/data-integration/

3.使用方法

总体来讲,就是这么个步骤:
选择数据输入——中间数据处理——最后数据输出

比如从mongodb 同步到 sqlserver过程如下:

(1)选择核心对象中的bigdata MongoDB Input (数据输入)

clipboard.png

(2)进行数据处理 (这里筛选了需要抽取的字段)

clipboard.png

(3)选择插入更新输出

clipboard.png

4.总结

数据输入的形式很多,各种形式的数据都可以做为一手数据源, kettle 数据转换的功能也很强大, 还可以进行 java ,javascript 等脚本的编写来进行高级的数据处理, 最后得到需要的数据。
相比其他开源的etl工具和其他商业的etl工具,对比下来 kettle还是比较强大和好用。


十年
1k 声望32 粉丝

干过后端