1

概要

大数据是目前非常火热的词,基本各行各业都离不开大数据,利用金融数据分析一个公司的走势,利用监控数据可以抓住一个在逃逃犯。这些都是大数据应用程序。
在这里插入图片描述

大数据技术的相关概念

数据无处不在,各行各业无时无刻不在产生大量的数据。
在这里插入图片描述
如何保存和分析像海洋一样的数据,成为了一道难题。传统的单机存储存在存储容量小、读写速率慢、计算效率低下的缺点。Google提出了一系列大数据技术。比如MapReduce,bigtable,gfs。这些技术给大数据存储和分析带来了革命性的改变。首先降低了成本,数据能用PC机存储,而不是超级计算机。其次使用软件提高可靠性,而不是硬件。最后简化了分布式并行计算,不需要控制同步和数据交换。Google只提供了一些论文,没有开源源代码。所以一个模仿Google的开源技术来了。就是hadoop。
在这里插入图片描述
hadoop是apache的顶级项目之一,主要负责分布式存储和分布式计算。 hadoop由两个部分组成:hdfs存储海量数据,mapreduce实现任务分解和处理。hadoop可以实现以下功能:
在这里插入图片描述
为什么选择hadoop,首先扩展性强,可以通过简单地添加硬件实现,其次成本很低,不需要使用高端的机器,只用个人电脑就可以。最后hadoop的生态圈成熟,围绕hadoop产生了很多工具。


木木甫
494 声望23 粉丝

已工作的应届生。希望能和大家多多交流技术问题,