hadoop mr执行过程

Question

hadoop mr执行过程

发布于
2020-09-21

新手上路，请多包涵

比如说，我想用hadoop处理一个500GB的存储在HDFS中的文件，那么hadoop MR是怎样加载这个文件的？Map和Reduce又是在什么时候触发的？比如各个Map任务是在文件加载完成后统一触发的还是在读取到Map配置的某个阈值之后逐个启动的？当某一个Map节点任务完成后它会等待其他的Map节点将任务执行完毕再将结果发给Reduce还是自己执行完毕之后就立即把计算结果发给Reduce了？还有，既然文件有足足500GB大，那当我的几台节点机器的内存加在一起都没有500GB，那Hadoop又是怎么处理这种情况的呢？

hadoop

阅读 953

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

hive需要在配置文件中指定hadoop集群namenode的ip和端口吗，如果不需要，那他们是如何建立连接的呢？
hive需要在配置文件中指定hadoop集群namenode的ip和端口吗，如果不需要，那他们是如何建立连接的呢？hadoop：3.3.2hive：3.1.3
844 阅读

相似问题

找不到问题？创建新问题

hadoop mr执行过程

你尚未登录，登录后可以

hive需要在配置文件中指定hadoop集群namenode的ip和端口吗，如果不需要，那他们是如何建立连接的呢？