spark - RDD - 天王盖帝湖 - SegmentFault 思否

RDD(Resilient Distributed Datasets),弹性分布式数据集，它是一种特殊集合，支持多种来源，有容错机制，可以被缓存，支持并行操作

spark编程模型的最主要抽象，第一个是RDD，第二个抽象是两种共享变量，即支持并行计算的广播变量和累加器

spark一切都是基于RDD的，RDD就是SPARK输入的数据，把RDD理解成一个提供了许多操作接口的数据集合

RDD的操作类型分为两类，转换（transformations），它将根据原有的RDD创建一个新的RDD；行动（actions），对RDD操作后把结果返回给driver。例如，map是一个转换，它把数据集中的每个元素经过一个方法处理后返回一个新的RDD；而reduce则是一个action，它收集RDD的所有数据后经过一些方法的处理，最后把结果返回给driver。

RDD的所有转换操作都是lazy模式，即Spark不会立刻计算结果，而只是简单的记住所有对数据集的转换操作。这些转换只有遇到action操作的时候才会开始计算

rdd包含五个特征：

一个分片列表 partition list
一个计算函数compute，对每一个split进行计算
对其他rdd的依赖列表dependencies list.依赖又份 宽依赖和窄依赖。
partitioner for key-value RDDs.比如说 hash-partitioned rdd(这是可选的，并不是所有的add都会有这个特征)
对每一个split计算的优先位置 Preferred Location。比如对一个hdfs文件进行计算时，可以获取优先计算的block locations

spark中的依赖关系主要体现为两种形式，窄依赖和宽依赖

RDD创建方式
1）从Hadoop文件系统（如HDFS、Hive、HBase）输入创建。
2）从父RDD转换得到新RDD。
3）通过parallelize或makeRDD将单机数据创建为分布式RDD。
4）基于DB(Mysql)、NoSQL(HBase)、S3(SC3)、数据流创建。

每当一个job计算完成，其内部的所有RDD都会被清除，如果在下一个job中有用到其他job中的RDD，会引发该RDD的再次计算，为避免这种情况，我们可以使用persist方法“持久化”一个RDD到内存中。

flatmap和map的区别

- Spark 中 map函数会对每一条输入进行指定的操作，然后为每一条输入返回一个对象；

- 而flatMap函数则是两个操作的集合——正是“先映射后扁平化”：

   操作1：同map函数一样：对每一条输入进行指定的操作，然后为每一条输入返回一个对象

   操作2：最后将所有对象合并为一个对象

RDD

RDD(Resilient Distributed Datasets),弹性分布式数据集，它是一种特殊集合，支持多种来源，有容错机制，可以被缓存，支持并行操作

spark编程模型的最主要抽象，第一个是RDD，第二个抽象是两种共享变量，即支持并行计算的广播变量和累加器

spark一切都是基于RDD的，RDD就是SPARK输入的数据，把RDD理解成一个提供了许多操作接口的数据集合

RDD的所有转换操作都是lazy模式，即Spark不会立刻计算结果，而只是简单的记住所有对数据集的转换操作。这些转换只有遇到action操作的时候才会开始计算

rdd包含五个特征：

spark中的依赖关系主要体现为两种形式，窄依赖和宽依赖

flatmap和map的区别

SportCloud

引用和评论

数据仓库概述

Flink && Spark SQL提效神器双双更新

从 Spark 到 StarRocks：实现58同城湖仓一体架构的高效转型

PySpark一：Windows10环境搭建

【赵渝强老师】Spark RDD的缓存机制

【赵渝强老师】Spark RDD的依赖关系和任务阶段

美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台

RDD

RDD(Resilient Distributed Datasets),弹性分布式数据集， 它是一种特殊集合，支持多种来源，有容错机制，可以被缓存，支持并行操作

spark编程模型的最主要抽象，第一个是RDD，第二个抽象是两种共享变量，即支持并行计算的广播变量和累加器

spark一切都是基于RDD的，RDD就是SPARK输入的数据，把RDD理解成一个提供了许多操作接口的数据集合

RDD的所有转换操作都是lazy模式，即Spark不会立刻计算结果，而只是简单的记住所有对数据集的转换操作。这些转换只有遇到action操作的时候才会开始计算

rdd包含五个特征：

spark中的依赖关系主要体现为两种形式，窄依赖和宽依赖

flatmap和map的区别

SportCloud

引用和评论

数据仓库概述

Flink && Spark SQL提效神器双双更新

从 Spark 到 StarRocks：实现58同城湖仓一体架构的高效转型

PySpark一：Windows10环境搭建

【赵渝强老师】Spark RDD的缓存机制

【赵渝强老师】Spark RDD的依赖关系和任务阶段

美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台

RDD(Resilient Distributed Datasets),弹性分布式数据集，它是一种特殊集合，支持多种来源，有容错机制，可以被缓存，支持并行操作