有没有好用的大数据ETL工具

目前业界有没有好用的etl工具?用于数据仓库建设的。
1、hadoop的oozie和azkaban用了下感觉更适合小型任务的,但在数据仓库建设中感觉会十分麻烦。
2、ETL Automation、kettle等适合于oracle等,不太适合hadoop等。
3、自己开发ETL了,有些互联网公司就是这么干的。

阅读 18.3k
7 个回答

是要用于大数据的管理吗
大数据ETL工具最主要的就是平台发建设,而Datastreams在这方面一直都力求不断创新。
便捷性:
Datastreams已经拥有数据整合平台,所以领域扩张到大数据很自然很容易。不仅增设了用户不懂操作方法也能使用的和同一平台hadoop一样的大数据部件。Hadoop作为TeraStream的一部分运行,用户使用很便利。
技术优势:
  Datastreams把它定位在大型数据处理技术和速度、数据容量上。当时使用的是甲骨文关联的数据库,但因为它不能运行复杂的运算系统导致不同用户的速度差很明显,还有数据容量小的问题。
Datastreams的产品是有特别大数据容量缩短数据处理时间的超高速引擎。通过数据整合使用此技术。最初介绍此技术时相关行业都评价说是相当创新的技术
技术创新:
图片描述

  持有录入项目、文脉及含义的数据用语词典。所有定义都存储在元数据管理方案中。还有一点是地址。移动时收集的数据会变成旧数据只要不更新就无法使用数据。

  MetaStream软件可以将这些数据标准化。而且相对来说数据之间数据的状态会不太好,因此由于限制搜索结果的无数对比会需要许多电脑资源。所以用标准化形态去维护数据非常重要。MetaStream可以进行这一作业。

你是准备ETL之后把数据放进传统的SQL数据仓库么?

如果数据量非常大,可以试着直接存放在Hadoop或者NonSQL数据库,比如Cassandra。然后在这基础上使用一些SQL on Hadoop的方案去查询数据,比如Spark,或者Impala等。也有个中国人做的开源产品Apache Kylin,可以一看。

大数据的时代,etl工具会节约很多的成本

kettle处理json不太好,因为我这边存储在hbase中,hive转换,不太顺

宣传栏