在基于hadoop的数据仓库应用中,需要将源端mysql中几百上千张表的数据同步到hdfs,
采用sqoop每天批量离线同步是一种方式,但实时性不高,耗时较长。
理想情况是能够实时同步mysql数据到hdfs,通过canal可以监听mysql binlog可以获取到mysql的实时数据,也可以发送到kafka这样的消息队列做缓冲和解耦。问题在于从kafka到hdfs这一层,如何处理比较好?有没有好用的工具,或者是写storm之类的流式计算程序去读写数据么?
在基于hadoop的数据仓库应用中,需要将源端mysql中几百上千张表的数据同步到hdfs,
采用sqoop每天批量离线同步是一种方式,但实时性不高,耗时较长。
理想情况是能够实时同步mysql数据到hdfs,通过canal可以监听mysql binlog可以获取到mysql的实时数据,也可以发送到kafka这样的消息队列做缓冲和解耦。问题在于从kafka到hdfs这一层,如何处理比较好?有没有好用的工具,或者是写storm之类的流式计算程序去读写数据么?
5 回答3.2k 阅读✓ 已解决
3 回答3.6k 阅读✓ 已解决
2 回答2.8k 阅读✓ 已解决
5 回答1.4k 阅读
3 回答1.2k 阅读✓ 已解决
2 回答2k 阅读
3 回答2k 阅读