Spark RDD 转化操作与行动操作

2019-09-25
阅读 4 分钟
3.8k
本文摘自《Spark 快速大数据分析》 概述 RDD 支持两种操作:转化操作(Transformation)和行动操作(Action)。 转化操作时返回一个新的 RDD 的操作,比如 map() 和 filter()。 行动操作则是向驱动器程序返回结果或把结果写入外部系统的操作,会触发实际的计算,比如 count() 和first()。 Spark 对待转化操作和行动操作...

Hadoop MapReduce Spark 配置项

2019-09-19
阅读 1 分钟
2.4k
适用范围 本文涉及到的配置项主要针对 Hadoop 2.x,Spark 2.x。 MapReduce 官方文档 [链接]左下角: mapred-default.xml 配置项举例 name value description mapreduce.job.reduce.slowstart.completedmaps 0.05 当 Map Task 完成的比例达到该值后才会为 Reduce Task 申请资源 mapreduce.output.fileoutputformat.compres...