对于一个完整的从Kafka或者hdfs读取数据
然后用模型计算
并把结果导出到mysql或者hbase的spark程序
把它提交了以后
它是一直在运行嘛?
如果有新数据从源来了,它是从头再运行一次,还是接着上次的位置继续运行下去?
对于一个完整的从Kafka或者hdfs读取数据
然后用模型计算
并把结果导出到mysql或者hbase的spark程序
把它提交了以后
它是一直在运行嘛?
如果有新数据从源来了,它是从头再运行一次,还是接着上次的位置继续运行下去?
8 回答6.5k 阅读
2 回答4.3k 阅读✓ 已解决
4 回答4.2k 阅读
2 回答1.7k 阅读✓ 已解决
4 回答2.5k 阅读✓ 已解决
7 回答1.8k 阅读
1 回答4.1k 阅读✓ 已解决
你应该写一个定时任务脚本,我一般用
linux
上的crontab
来执行定时任务