我做大数据分析,我想用spark定时去读cassandra数据(轮询),分析结果存到mysql,用scala写程序,该如何实现...?需要用spark streaming吗?
我做大数据分析,我想用spark定时去读cassandra数据(轮询),分析结果存到mysql,用scala写程序,该如何实现...?需要用spark streaming吗?
其实你可以像单机程序那样,执行一个函数,然后休眠一段时间,然后再循环。。。
对实时性要求不高可以不上spark streaming。如果上,最好有另外一个程序作为发送端,将数据发布到kafka上供spark消费。具体的代码可以看官方的demo
可以写一个定时脚步。
例如在Linux 服务器上,修改crontab -e
10 10,18 * /home/ane/zhong_config/runSignException.sh
每到10点10分和18点10分 运行 这个脚步,脚步中可以调用执行Scala的代码。
不知道这样是否符合你的要求,不需要sparkstreaming 复杂的引用
1 回答2.2k 阅读
1 回答571 阅读✓ 已解决
1 回答492 阅读✓ 已解决
标准的spark streaming场景,不过不会scala