Spark中的RDD的分区算法-值得借鉴

阅读 1 分钟

0

Spark中的RDD的分区算法

def positions(length: Long, numSlices: Int): Iterator[(Int, Int)] = {
      (0 until numSlices).iterator.map { i =>
        val start = ((i * length) / numSlices).toInt
        val end = (((i + 1) * length) / numSlices).toInt
        (start, end)
      }
}

/**

numSlices 分区数
(0 until numSlices).iterator 是将分区数变成Iterator，再通过map算法将
0->0 转换成 0->(0,n) 这种结构，就是说0号分区读取0到n个数据集。
map算法中的实现为：
val start = ((i * length) / numSlices).toInt
val end = (((i + 1) * length) / numSlices).toInt
最终返回 Iterator[(start,end)]
这样就可以尽量平均的把数据集分配到每一个分区

*
*/

大数据集群中经常碰到需要把数据分区分片，分配到集群中的各个节点执行，以调动集群资源来同步执行同一个任务，这样会大大加快任务的执行效率。所以优秀的分区算法是不可或缺的一部分。

阅读 1.7k更新于 2019-09-28

farAway

48 声望6 粉丝

小白也有一颗大牛心~

« 上一篇

大数据开发-HDFS-web页面权限不足问题

下一篇 »

Java实现几种查找方法

引用和评论

推荐阅读

特征抽取并转换成Spark或Flink执行计划的思路

farAway阅读 2.3k

【活动回顾】StarRocks Singapore Meetup #2 @Shopee

StarRocks阅读 600

鹰角：EMR Serverless Spark 在《明日方舟》游戏业务的应用

阿里云大数据AI阅读 505

最佳实践 | 在 EMR Serverless Spark 中实现 Doris 读写操作

阿里云大数据AI阅读 495

Spark on K8s 在vivo大数据平台的混部实战

vivo互联网技术阅读 494

Flutter Demo 的快速编译与运行

OpenIM阅读 489

最佳实践 | 在 EMR Serverless Spark 中实现 StarRocks 读写操作

阿里云大数据AI阅读 485

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。