spark 生成RDD的运行机制

生成RDD其中一种方式Parallelize,运行原理是什么,是在action时候,把数据通过网络传递给worker节点的内存中吗,textfile可以理解,各个worker分布读取到自己的内存中,但是Parallelize怎么理解呢

阅读 3k
1 个回答

和textfile类似的道理,相当于把本地的一个集合变成rdd,也是lazy的。在真正计算的时候,会分布拷贝到各个worker上

第一个参数就是本地集合数据,第二个参数是分片数,就是希望分成多少个任务并行计算。不指定的话,spark会根据worker情况默认分配个值

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进