简述hadoop 2.x Yarn组件协作过程

2018-01-12
阅读 3 分钟
3.3k
系统结构 hadoop2.x主要包括三个核心部分: (1) hdfs-分布式存储组件 hadoop用于存储数据的基础组件。分布式的,跨网络交互的hdfs集群。 (2) yarn-资源管理、任务调度组件 hadoop用于资源管理、任务调度的基础组件。yarn使hadoop成为分布式处理数据的通用平台,支持MapReduce v2、Tez、Hoya等多种计算框架。 (3) process...

简述Hadoop 1.X 系统原理

2018-01-10
阅读 1 分钟
3.3k
一、hadoop 1.x结构 HDFS:hadoop分布式存储系统 MapReduce:分布式计算框架,包含资源管理和任务调度等(hadoop 2.x中被分离到Yarn组件)。 API:用户与系统交互的入口,有原生的MapReduce API,也有对Map Reduce进行封装抽象的Pig、Hive和HBase等。 二、hadoop 1.x运行原理 1:客户端首先向Master节点的JobTracker发送...

hadoop入门案例-统计每个航班班次

2018-01-09
阅读 8 分钟
4.4k
案例基于hadoop 2.73,伪分布式集群 一,创建一个MapReduce应用 MapReduce应用结构如图: 1、引入maven依赖 {代码...} 2、MapReduce Driver代码 是用户与hadoop集群交互的客户端,在此配置MapReduce Job。 {代码...} 3、MapReduce Mapper代码 {代码...} 4、MapReduce Reducer代码 {代码...} 5、利用idea maven打jar包 ja...

图说MapReduce处理数据的过程

2018-01-05
阅读 2 分钟
4.1k
A:文件存储到linux系统、windows系统都是以data block的形式来存储。hdfs会把文件分拆成固定尺寸的data blok。

通过Apache Flume向HDFS存储数据

2017-12-28
阅读 2 分钟
5.9k
本笔记基于Hadoop2.7.3,Apache Flume 1.8.0。其中flume source为netcat,flume channel为memory,flume sink为hdfs。