怎样让spark定时读数据库数据呢?

我做大数据分析,我想用spark定时去读cassandra数据(轮询),分析结果存到mysql,用scala写程序,该如何实现...?需要用spark streaming吗?

阅读 9.3k
4 个回答

标准的spark streaming场景,不过不会scala

其实你可以像单机程序那样,执行一个函数,然后休眠一段时间,然后再循环。。。
对实时性要求不高可以不上spark streaming。如果上,最好有另外一个程序作为发送端,将数据发布到kafka上供spark消费。具体的代码可以看官方的demo

可以写一个定时脚步。
例如在Linux 服务器上,修改crontab -e
10 10,18 * /home/ane/zhong_config/runSignException.sh
每到10点10分和18点10分 运行 这个脚步,脚步中可以调用执行Scala的代码。
不知道这样是否符合你的要求,不需要sparkstreaming 复杂的引用

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进