一 什么是hadoop

 1 Hadoop是由Apache基金会所开发的分布式系统基础架构 

 2 主要解决海量数据的存储和海量数据的分析计算问题

 3 狭义上来说,Hadoop是一款软件。广义上来说,Hadoop通常指的是Hadoop生态圈

二 Hadoop的优势(4高)

1 高可靠:因为Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失(可以简单理解为有多个数据备份)

2 高扩展:在集群间分配任务数据,可方便扩展数以千计的节点(分布式系统基础架构的意义所在)

3 高效性:在mapreduce的思想(主要是分而治之)下,Hadoop是并行工作的,以加快任务处理速度。(主要mapreduce也是个分布式计算框架)

4 高容错:能够自动将失败的任务重新分配。

三 Hadoop的组成

Hadoop1.x 和 Hadoop2.x是有区别的
image.png

其实就是在Hadoop2.x中,拆分了原本mapreduce的功能。将资源调度功能赋予了Yarn。这也是设计人员的一个理念吧,各干各的,提升效率


DKCN
0 声望0 粉丝