1.为什么要使用数据抽取
(1)为了不妨碍业务数据的读取和写入,需要进行数据的抽取,抽取到另外数据库表进行读取
(2)对某些总计数据可以进行预先计算, 抽取到另外数据库表
(3)随访业务数据库为mongodb , 统计程序编程效率低,需要转成sql 类数据库提高效率
2.工具
使用 kettle 开源etl工具
网址:http://community.pentaho.com/projects/data-integration/
3.使用方法
总体来讲,就是这么个步骤:
选择数据输入——中间数据处理——最后数据输出
比如从mongodb 同步到 sqlserver过程如下:
(1)选择核心对象中的bigdata MongoDB Input (数据输入)
(2)进行数据处理 (这里筛选了需要抽取的字段)
(3)选择插入更新输出
4.总结
数据输入的形式很多,各种形式的数据都可以做为一手数据源, kettle 数据转换的功能也很强大, 还可以进行 java ,javascript 等脚本的编写来进行高级的数据处理, 最后得到需要的数据。
相比其他开源的etl工具和其他商业的etl工具,对比下来 kettle还是比较强大和好用。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。