Spark 作业指定 partion数量大于实际Block 数量时，数据如何分布？

Question

新手上路，请多包涵

阅读 2.5k

1 个回答

得票最新

Partition只是一个抽象的数据集。实际数据存储在Block上，Block存储方式、副本数由persist(StorageLevel)决定。目前Spark默认使用的分区器是org.apache.spark.RangePartitioner。

撰写回答

推荐问题

相似问题

找不到问题？创建新问题