如何实时同步大量mysql表数据到hadoop

新手上路，请多包涵

在基于hadoop的数据仓库应用中，需要将源端mysql中几百上千张表的数据同步到hdfs，
采用sqoop每天批量离线同步是一种方式，但实时性不高，耗时较长。
理想情况是能够实时同步mysql数据到hdfs，通过canal可以监听mysql binlog可以获取到mysql的实时数据，也可以发送到kafka这样的消息队列做缓冲和解耦。问题在于从kafka到hdfs这一层，如何处理比较好？有没有好用的工具，或者是写storm之类的流式计算程序去读写数据么？