【赵渝强老师】Spark的容错机制：检查点

由于Spark的计算是在内存中完成，因此任务执行的生命周期lineage（血统）越长，执行出错的概念就会越大。Spark通过检查点Checkpoint的方式，将RDD的状态写入磁盘进行持久化的保存从而支持容错。如果在检查点之后有节点出现了问题，Spark只需要从检查点的位置开始重新执行lineage就可以了，这样就减少了开销。设置checkpoint的目录，可以是本地的文件夹，也可以是HDFS。

视频讲解如下：
https://www.bilibili.com/video/BV1v7xDe9E4L/?aid=113241426498...

建议在生产系统中采用具有容错能力、高可靠的文件系统作为检查点保存的目的地。

这种模式需要将spark-shell运行在本地模式上。下面的代码使用了本地目录作为RDD检查点的目录
（1）设置检查点目录。

scala> sc.setCheckpointDir("file:///root/temp/checkpoint")

（2）创建RDD。

scala> val rdd1 = sc.textFile("hdfs://bigdata111:9000/input/sales")

（3）标识RDD的检查点。

scala> rdd1.checkpoint

（4）执行计算。

scala> rdd1.count

（5）当计算完成后，查看本地的/root/temp/checkpoint目录下生成了相应的检查点信息，如下图所示。
在这里插入图片描述

这种模式需要将spark-shell运行在集群模式上。下面的代码使用了HDFS目录作为RDD检查点的目录
（1）设置检查点目录。

scala> sc.setCheckpointDir("hdfs://bigdata111:9000/spark/checkpoint")

（2）创建RDD。

scala> val rdd1 = sc.textFile("hdfs://bigdata111:9000/input/sales")

（3）标识RDD的检查点。

scala> rdd1.checkpoint

（4）执行计算。

scala> rdd1.count

（5）当计算完成后，查看HDFS的/spark/checkpoint目录下生成了相应的检查点信息，如下图所示。
在这里插入图片描述

【赵渝强老师】Spark的容错机制：检查点

1、使用本地目录作为检查点目录

2、使用HDFS目录作为检查点目录。

赵渝强老师

引用和评论

【赵渝强老师】在PostgreSQL中使用file_fdw访问外部文件系统

【Hadoop】HDFS架构解析

【Hadoop】HBase系统解析及适用场景

Flink+Paimon+Hologres，面向未来的一体化实时湖仓平台架构设计

基于 pyflink 的算法工作流设计和改造

鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目

数据无界、湖仓无界，Apache Doris 湖仓一体典型场景实战指南（下篇）