要理解Hadoop和大数据的关系,首先需要从理解大数据开始着手,大数据的组件里有两类关键的组件,分别是存储和计算。Hadoop和Spark两者是有历史发展过程的:【Hadoop-HDFS】Hadoop是由HDFS和MapReduce两部分组成,分别是属于存储部分和计算部分,HDFS的诞生是为了解决大数据存储问题,以前数据量较小可以存放在MySQL, SQL Server和Oracle这些数据库里,但随着数据量越来越大,使用传统的这些数据库存储业务数据已经变得十分吃力,而且价格昂贵。因此HDFS作为分布式存储组件,将廉价的机器组织起来,解决了大数据的存储问题。【Hadoop-MapReduce】既然数据已经存得下来,那下一个想要解决的问题就是“怎么更好地运用这些数据,发挥它们的价值?“ 因此人们希望能够从这一堆数据里面挖掘出一些对业务有价值的信息,所以这就是大数据计算所要解决的问题。MapReduce提供了一种大数据计算的框架,使得人们可以在它的框架下定义自己的计算逻辑,从存储在HDFS的海量数据中计算得出特定的结果,从而挖掘有价值的信息成为可能。【Spark】Spark可以简单地理解为是MapReduce的升级版,定义了除了Map和Reduce操作之外的更多灵活的操作,而且在性能和容错等方面做了很多优化和改进。后续增加了很多扩展的能力,比如针对机器学习的算法处理、针对流式数据的处理等等,进而逐渐形成自己的生态,目前Spark仍然是批处理离线计算场景里的主要组件。内容来源嘉宾:Alluxio 麦嘉铭
要理解Hadoop和大数据的关系,首先需要从理解大数据开始着手,大数据的组件里有两类关键的组件,分别是存储和计算。
Hadoop和Spark两者是有历史发展过程的:
【Hadoop-HDFS】
Hadoop是由HDFS和MapReduce两部分组成,分别是属于存储部分和计算部分,HDFS的诞生是为了解决大数据存储问题,以前数据量较小可以存放在MySQL, SQL Server和Oracle这些数据库里,但随着数据量越来越大,使用传统的这些数据库存储业务数据已经变得十分吃力,而且价格昂贵。因此HDFS作为分布式存储组件,将廉价的机器组织起来,解决了大数据的存储问题。
【Hadoop-MapReduce】
既然数据已经存得下来,那下一个想要解决的问题就是“怎么更好地运用这些数据,发挥它们的价值?“ 因此人们希望能够从这一堆数据里面挖掘出一些对业务有价值的信息,所以这就是大数据计算所要解决的问题。MapReduce提供了一种大数据计算的框架,使得人们可以在它的框架下定义自己的计算逻辑,从存储在HDFS的海量数据中计算得出特定的结果,从而挖掘有价值的信息成为可能。
【Spark】
Spark可以简单地理解为是MapReduce的升级版,定义了除了Map和Reduce操作之外的更多灵活的操作,而且在性能和容错等方面做了很多优化和改进。后续增加了很多扩展的能力,比如针对机器学习的算法处理、针对流式数据的处理等等,进而逐渐形成自己的生态,目前Spark仍然是批处理离线计算场景里的主要组件。