大数据入门指南 - SegmentFault 思否

Hadoop 系列（八）—— 基于 ZooKeeper 搭建 Hadoop 高可用集群

2019-09-21

阅读 12 分钟

1.4k

Hadoop 高可用 (High Availability) 分为 HDFS 高可用和 YARN 高可用，两者的实现基本类似，但 HDFS NameNode 对数据存储及其一致性的要求比 YARN ResourceManger 高得多，所以它的实现也更加复杂，故下面先进行讲解：

Hadoop 系列（七）—— HDFS Java API

黑白影

2019-09-21

阅读 7 分钟

2.4k

FsPermission(FsAction u, FsAction g, FsAction o) 的三个参数分别对应：创建者权限，同组其他用户权限，其他用户权限，权限值定义在 FsAction 枚举类中。

Hadoop 系列（六）—— HDFS 常用 Shell 命令

黑白影

2019-09-21

阅读 3 分钟

2.3k

一、基本命令打开 Hbase Shell： {代码...} 1.1 获取帮助 {代码...} 1.2 查看服务器状态 {代码...} 1.3 查看版本信息 {代码...} 二、关于表的操作 2.1 查看所有表 {代码...} 2.2 创建表命令格式： create '表名称', '列族名称 1','列族名称 2','列名称 N' {代码...} 2.3 查看表的基本信息命令格式：desc '表名' {代码...

Hadoop 系列（五）—— Hadoop 集群环境搭建

黑白影

2019-09-18

阅读 4 分钟

2.5k

这里搭建一个 3 节点的 HBase 集群，其中三台主机上均为 Regin Server。同时为了保证高可用，除了在 hadoop001 上部署主 Master 服务外，还在 hadoop002 上部署备用的 Master 服务。Master 服务由 Zookeeper 集群进行协调管理，如果主 Master 不可用，则备用 Master 会成为新的主 Master。

Hadoop 系列（四）—— Hadoop 开发环境搭建

黑白影

2019-09-17

阅读 3 分钟

2.4k

一、前置条件 Hadoop 的运行依赖 JDK，需要预先安装，安装步骤见： Linux 下 JDK 的安装二、配置免密登录 Hadoop 组件之间需要基于 SSH 进行通讯。 2.1 配置映射配置 ip 地址和主机名映射： {代码...} 2.2 生成公私钥执行下面命令行生成公匙和私匙： {代码...} 3.3 授权进入 ~/.ssh 目录下，查看生成的公匙和私匙，...

Hadoop 系列（三）—— 分布式计算框架 MapReduce

黑白影

2019-09-16

阅读 8 分钟

Hadoop MapReduce 是一个分布式计算框架，用于编写批处理应用程序。编写好的程序可以提交到 Hadoop 集群上用于并行处理大规模的数据集。

Hadoop 系列（二）—— 集群资源管理器 YARN

黑白影

2019-09-13

阅读 3 分钟

3.7k

Apache YARN (Yet Another Resource Negotiator) 是 hadoop 2.0 引入的集群资源管理系统。用户可以将各种服务框架部署在 YARN 上，由 YARN 进行统一地管理和资源分配。

Hadoop 系列（一）—— 分布式文件系统 HDFS

黑白影

2019-09-11

阅读 4 分钟

4.2k

HDFS （Hadoop Distributed File System）是 Hadoop 下的分布式文件系统，具有高容错、高吞吐量等特性，可以部署在低成本的硬件上。