在 Spark中为什么task不是按照顺序执行

Question

在 Spark中为什么task不是按照顺序执行

发布于
2020-05-13

我在 spark-shell 下面运行一个最简单的 wordcount 程序，

val text = spark.read.textFile("/datasets/wordcount_512m.txt")
text.flatMap(line => line.split(" ")).groupByKey(identity).count().collect()

我的 hdfs 块大小为 128 MB，配置是 2 个 executor，每个 executor 2个核，也就是说这个任务会有4个partition。然后我看 Spark 的UI面板，在 stage 0 阶段是正常的，有4个task同时执行。

但是在 stage 1 阶段，我发现有些 task id 更大的任务会先执行，这是为什么。

就比如上面两张图，task id 为91的执行先于task id 为0执行，这是为什么。

这些提早执行的 task id 又是干什么的?

spark spark-shell spark-submit 大数据

阅读 1.5k

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

在 Spark中为什么task不是按照顺序执行

你尚未登录，登录后可以

多个nas如何整合成一个整体?

scala栈溢出的问题？

spark mlib堆栈溢出错误谢谢？

在 Spark中为什么task不是按照顺序执行

你尚未登录，登录后可以

多个nas如何整合成一个整体?

scala栈溢出的问题？

spark mlib堆栈溢出错误 谢谢？

spark mlib堆栈溢出错误谢谢？