如何实时同步大量mysql表数据到hadoop

新手上路,请多包涵

在基于hadoop的数据仓库应用中,需要将源端mysql中几百上千张表的数据同步到hdfs,
采用sqoop每天批量离线同步是一种方式,但实时性不高,耗时较长。
理想情况是能够实时同步mysql数据到hdfs,通过canal可以监听mysql binlog可以获取到mysql的实时数据,也可以发送到kafka这样的消息队列做缓冲和解耦。问题在于从kafka到hdfs这一层,如何处理比较好?有没有好用的工具,或者是写storm之类的流式计算程序去读写数据么?

阅读 8.5k
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题