是这样的,在hadoop完全分布式环境下,有一个主节点和两个从节点,我想处理一个很大的数据文件,因为我们有两个从节点,可以通过mapreduce编写程序把数据分成两部分然后分别让每个节点去处理,最后在输出数据?
那样就失去大数据组件的意义了,你只需要直接把数据上传,hadoop自己会决定由谁来执行计算,不需要人为写代码。