Spark 作业指定 partion数量大于实际Block 数量时,数据如何分布?

新手上路,请多包涵

Spark 作业指定 partion数量大于实际Block 数量时,数据如何分布?

阅读 2.4k
1 个回答

Partition只是一个抽象的数据集。实际数据存储在Block上,Block存储方式、副本数由persist(StorageLevel)决定。目前Spark默认使用的分区器是org.apache.spark.RangePartitioner。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进