SparkStream checkpoint 的几个问题

新手上路,请多包涵

刚用spark streaming,有几个关于checkpoint的疑问:

  1. checkpoint有两种,一种是对driver的meta的,一种是对data的。手册上说,只有用stateful transformation的时候,才会写data的checkpoint。那么,我如果没用stateful transformation,data的checkpoint数据还会写吗?如果不写,我重新restart的时候,丢失的rdd要从哪里获取?
  2. batch job里的checkpoint我是可以指定那个rdd写的,或者说是在哪一步写checkpoint。那么在streaming里,我需要用foreachRDD{rdd.checkpoint()}这种吗?
  3. 如果在spark streaming里我不显示写rdd.checkpoint(),那么spark是怎么决定哪个rdd要写data checkpoint的文件的?
阅读 2.7k
1 个回答
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进