大数据：1-2 Apache Hadoop完全分布式集群搭建

1.虚拟机环境准备

使用vmware虚拟机虚拟三台linux节点，使用Centos7

1.1 虚拟机硬盘分配

内存：2G
硬盘：20G
/boot 分配200M
swap 分配2G
/ 分配所有剩余空间

1.2 配置静态IP

最好在关机状态下，修改网络。
点击编辑，选择倒数第⼆个选项“虚拟网络编辑器”,出现下面的“虚拟网络编辑器”窗⼝口。选择NAT模式，注意子网IP前三位与NAT设置的网关IP、DHCP网段一致。

虚拟机设置完成后，进入系统使用命令：

vi /etc/sysconfig/network-scripts/ifcfg-ens33

打开ifcfg-ens33文件，修改配置：

ONBOOT改为yes开启自动启用网络连接
BOOTPROTO改为静态static
IPADDR改为你⾃自⼰己设置的ip (ip可以通过命令 ip addr来获得)
systemctl restart network重启网络

GATEWAY设置网关
设置DNS1作为主DNS，也可以加个DNS2作为备用。
常见的DNS1=8.8.8.8 DNS2=8.8.4.4
按esc退出编辑模式后 :wq! 强制退出并保存；
此时，运⽤用命令ping baidu.com
即可看出已经连通。

1.3 关闭防火墙与selinux

1.3.1 关闭防火墙

systemctl status firewalld.service 查看firewall状态
systemctl stop firewalld.service 停⽌止firewall
systemctl disable firewalld.service 禁⽌止firewall开机启动

1.3.2 关闭selinux

vi /etc/selinux/config

1.4 设置hostname并配置与IP的映射

设置hostname

[root@linux121 ~]其中的linux121就是hostname
可以通过 vi /etc/sysconfig/network 打开network编辑

保存退出后输入hostname,即可显示出linux121。
注意：改动配置文件后要进行网络重启
或重启init 6 从而使配置文件生效
命令为service network restart
设置hostname与IP映射

	IP地址	主机名
第一台机器	192.168.80.121	linux121
第一台机器	192.168.80.122	linux122
第一台机器	192.168.80.123	linux123

vi /etc/hosts

此时已经配置了了三台机器的IP与hostname映射，从而可以达到，在本机ping hostname可通，如果没有配此映射，需用ping IP地址可通。如果是三台机器互相用hostname来ping，那么三台机器必须同时配好三个IP和hostname的映射。

1.5 配置免密登录

参见1.4配置hostname与IP映射
在所有主机上创建目录并赋予权限
```
mkdir /root/.ssh chmod 700 /root/.ssh
```

在三台机器执行以下命令，生成公钥与私钥

cd ~ #进入用户⽬目录
ssh-keygen -t rsa -P "" 是生成ssh密码的命令，-t 参数表示⽣生成算法，有rsa和dsa两种；-P表示使用的密码，这里使用""空字
符串表示无密码。
cd ~/.ssh 进⼊入.ssh
cat id_rsa.pub >> authorized_keys
#这个命令将id_rsa.pub的内容追加到了了authorized_keys的内容后⾯面

4.复制第一台机器的认证到其他机器

scp authorized_keys linux121:/root/.ssh/
scp authorized_keys linux123:/root/.ssh/

密码传输过程中只使用一次，以后再使用ssh linux121或ssh linux123即不再需要密码，实现免密钥登录。

1.6 集群时间同步

时间同步的方式：在集群中找一台机器器，作为时间服务器。

通过网络连接外网进行时钟同步,必须保证虚拟机连上外网
ntpdate us.pool.ntp.org
阿里云时钟同步服务器
ntpdate ntp4.aliyun.com

集群中其他机器与这台机器定时的同步时间，⽐如，每隔十分钟，同步一次时间。
时间服务器配置（必须root用户）

确定是否安装了了ntpd的服务

如果没有安装,可以进行在线安装
yum -y install ntp
启动ntpd的服务
service ntpd start
设置ntpd的服务开机启动
chkconfig ntpd on第一步:确定是否安装了了ntpd的服务
rpm -qa | grep ntpd

编辑/etc/ntp.conf

编辑第一台机器的/etc/ntp.conf
vim /etc/ntp.conf
在⽂件中添加如下内容
restrict 192.168.80.0 mask 255.255.255.0 nomodify notrap
注释⼀下四行内容
#server 0.centos.pool.ntp.org
#server 1.centos.pool.ntp.org
#server 2.centos.pool.ntp.org
#server 3.centos.pool.ntp.org
去掉以下内容的注释，如果没有这两行注释，那就⾃己添加上
server 127.127.1.0 # local clock
fudge 127.127.1.0 stratum 10

配置以下内容，保证BIOS与系统时间同步

vim /etc/sysconfig/ntpd

添加一行内容

SYNC_HWLOCK=yes

重新启动ntpd
```
service ntpd status
```
ntpd 已停
```
service ntpd start
```
使NTP服务可以在系统引导的时候自动启动：
```
chkconfig ntpd on
```

其他机器配置（必须root用户）

在其他机器配置10分钟与时间服务器同步⼀次
```
crontab -e
```
编写脚本
另外两台机器器与192.168.80.121进⾏行行时钟同步
```
*/10 * * * * /usr/sbin/ntpdate 192.168.80.121
```
修改任意机器时间，进行测试
```
date -s "2021-05-24 23:00:00"
```
十分钟后查看机器是否与时间服务器同步
```
date
```

2.安装Hadoop

集群规划

框架	linux121	linux122	linux123
HDFS	NameNode、DataNode	DataNode	SecondaryNameNode、DataNode
YARN	NodeManager	NodeManager	NodeManager、ResourceManager

2.1 安装java和Hadoop并配置环境变量

在/opt目录下创建文件夹

mkdir -p /opt/lagou/software --软件安装包存放目录
mkdir -p /opt/lagou/servers --软件安装目录

下载jdk和Hadoop安装文件，上传到/opt/lagou/software，文章使用的jdk版本为java8，Hadoop版本为2.9.2
java官网：https://www.oracle.com/java/
Hadoop官网：http://hadoop.apache.org/

解压

tar -zxvf jdk-8u231-linux-x64.tar.gz -C /opt/lagou/servers/
tar -zxvf hadoop-2.9.2.tar.gz -C /opt/lagou/servers

添加环境变量

vi /etc/profile

## JAVA_HOME
export JAVA_HOME=/opt/lagou/servers/jdk1.8.0_231
export PATH=:$JAVA_HOME/bin:$PATH
## HADOOP_HOME
export HADOOP_HOME=/opt/lagou/servers/hadoop-2.9.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

使环境变量生效
```
source /etc/profile
```
验证hadoop
```
hadoop version
```

hadoop目录

drwxr-xr-x. 2 root root 194 Nov 13 2018 bin
drwxr-xr-x. 3 root root 20 Nov 13 2018 etc
drwxr-xr-x. 2 root root 106 Nov 13 2018 include
drwxr-xr-x. 3 root root 20 Nov 13 2018 lib
drwxr-xr-x. 2 root root 239 Nov 13 2018 libexec
-rw-r--r--. 1 root root 106210 Nov 13 2018 LICENSE.txt
-rw-r--r--. 1 root root 15917 Nov 13 2018 NOTICE.txt
-rw-r--r--. 1 root root 1366 Nov 13 2018 README.txt
drwxr-xr-x. 3 root root 4096 Nov 13 2018 sbin
drwxr-xr-x. 4 root root 31 Nov 13 2018 share

1.bin目录:对Hadoop进行操作的相关命令，如hadoop,hdfs等
2.etc目录：Hadoop的配置文件目录，入hdfs-site.xml,core-site.xml等
3.lib目录：Hadoop本地库（解压缩的依赖）
4.sbin目录：存放的是Hadoop集群启动停止相关脚本，命令
5.share目录：Hadoop的一些jar,官方案例jar，文档等

2.2 集群配置

Hadoop集群配置 = HDFS集群配置 + MapReduce集群配置 + Yarn集群配置

注意：Hadoop安装目录所属用户和所属用户组信息，默认是501 dialout，而我们操作Hadoop集群的用户使用的是虚拟机的root用户，所以为了避免出现信息混乱，修改Hadoop安装目录所属用户和用户组!

chown -R root:root /opt/lagou/servers/hadoop-2.9.2

进入 /opt/lagou/servers/hadoop-2.9.2/etc/hadoop 目录进行集群配置：

2.2.1 HDFS集群配置

指定HDFS使用的JDK路径（修改hadoop-env.sh）

vim hadoop-env.sh

export JAVA_HOME=/opt/lagou/servers/jdk1.8.0_231

指定NameNode节点以及数据存储目录（修改core-site.xml）

vim core-site.xml

<!-- 指定HDFS中NameNode的地址 -->
<property>
  <name>fs.defaultFS</name>
  <value>hdfs://linux121:9000</value>
</property>
<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
  <name>hadoop.tmp.dir</name>
  <value>/opt/lagou/servers/hadoop-2.9.2/data/tmp</value>
</property>

官方默认配置：https://hadoop.apache.org/doc...

指定secondarynamenode节点(修改hdfs-site.xml)

vim hdfs-site.xml

<!-- 指定Hadoop辅助名称节点主机配置 -->
<property>
  <name>dfs.namenode.secondary.http-address</name>
  <value>linux123:50090</value>
</property>
<!--副本数量 -->
<property>
  <name>dfs.replication</name>
  <value>3</value>
</property>

官方默认配置:https://hadoop.apache.org/doc...

指定datanode从节点(修改slaves文件，每个节点配置信息占一行)
```
vim slaves

linux121
linux122
linux123
```
注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。

2.2.2 MapReduce集群配置

指定MapReduce使用的jdk路径（修改mapred-env.sh）

vim mapred-env.sh

export JAVA_HOME=/opt/lagou/servers/jdk1.8.0_231

指定MapReduce计算框架运行Yarn资源调度框架(修改mapred-site.xml)

mv mapred-site.xml.template mapred-site.xml
vim mapred-site.xml

<!-- 指定MR运行在Yarn上 -->
<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property>

官方默认配置：https://hadoop.apache.org/doc...

2.2.3 Yarn集群配置

指定Yarn使用的JDK路径（修改yarn-env.sh）

vim yarn-env.sh

export JAVA_HOME=/opt/lagou/servers/jdk1.8.0_231

指定ResourceMnager的master节点信息(修改yarn-site.xml)

vim yarn-site.xml

<!-- 指定YARN的ResourceManager的地址 -->
<property>
  <name>yarn.resourcemanager.hostname</name>
  <value>linux123</value>
</property>
<!-- Reducer获取数据的方式 -->
<property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
</property>

官方默认配置：https://hadoop.apache.org/doc...

指定NodeManager节点（slaves文件已修改）

2.3 使用rsync分发配置

rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差异文件做更新。scp是把所有文件都复制过去。
基本语法

命令   选项参数   要拷贝的文件路径/名称   目的用户@主机:目的路径/名称
rsync  -rvl      $pdir/$fname          $user@$host:$pdir/$fname

参数说明

参数	功能
-r	递归
-v	显示复制过程
-l	拷贝符合链接

分发脚本
需求：循环复制文件到集权所有节点的相同目录下

安装rsync
```
[root@linux121 ~]# yum install -y rsync
```

脚本实现
/usr/local/bin目录下创建文件rsync-script，脚本内容如下：

#!/bin/bash
#1 获取命令输入参数的个数，如果个数为0，直接退出命令
paramnum=$#
if((paramnum==0)); then
echo no params;
exit;
fi
#2 根据传入参数获取文件名称
p1=$1
file_name=`basename $p1`
echo fname=$file_name
#3 获取输入参数的绝对路径
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir
#4 获取用户名称
user=`whoami`
#5 循环执行rsync
host_name=`hostname`
echo hostname=$host_name
for((host=121; host<124; host++)); do
if [ "linux$host" != "$host_name" ];then
echo ------------------- linux$host --------------
rsync -rvl $pdir/$file_name $user@linux$host:$pdir
fi
done

修改脚本 rsync-script 具有执行权限

[root@linux121 bin]$ chmod 777 rsync-script

调用脚本形式：rsync-script 文件名称

[root@linux121 bin]$ rsync-script /home/root/bin

调用脚本分发Hadoop安装目录到其它节点

[root@linux121 bin]$ rsync-script /opt/lagou/servers/hadoop-2.9.2

3.集群启动与测试

3.1 集群启动

注意：如果集群是第一次启动，需要在Namenode所在节点格式化NameNode，非第一次不用执行格式化Namenode操作！！

[root@linux121 hadoop-2.9.2]$ hadoop namenode -format

格式化命令执行效果：

格式化后创建的文件：/opt/lagou/servers/hadoop-2.9.2/data/tmp/dfs/name/current

3.1.1 单节点启动

在linux121上启动HDFS的NameNode和DataNode,在linux122启动DataNode，在linux123上启动NameNode和SecondaryNameNode

[root@linux121 hadoop-2.9.2]$ hadoop-daemon.sh start namenode
[root@linux121 hadoop-2.9.2]$ hadoop-daemon.sh start 
datanode
[root@linux121 hadoop-2.9.2]$ jps
3461 NameNode
3608 Jps
3561 DataNode

[root@linux122 hadoop-2.9.2]$ hadoop-daemon.sh start 
datanode
[root@linux122 hadoop-2.9.2]$ jps
3190 DataNode
3279 Jps

[root@linux123 hadoop-2.9.2]$ hadoop-daemon.sh start datanode
[root@linux123 hadoop-2.9.2]$ hadoop-daemon.sh start 
secondaryNameNode
[root@linux123 hadoop-2.9.2]$ jps
3237 Jps
3163 DataNode
3283 SecondaryNameNode

web端查看HDFS界面：http://linux121:50070/dfsheal...
注意：如果想直接使用linux121，需要在win主机配置对应的hostname

查看HDFS集群正常节点：

在linux123上启动Yarn的ResourceManager,在linux121和linux122上分别启动NodeManager

[root@linux123 servers]# yarn-daemon.sh start resourcemanager
[root@linux123 servers]# jps
7881 ResourceManager
8094 Jps

[root@linux122 servers]# yarn-daemon.sh start nodemanager
[root@linux122 servers]# jps
8166 NodeManager
8223 Jps

[root@linux121 servers]# yarn-daemon.sh start nodemanager
[root@linux121 servers]# jps
8166 NodeManager
8223 Jps

3.1.2 集群群启

启动/关闭HDFS

[root@linux121 hadoop-2.9.2]$ sbin/start-dfs.sh
[root@linux121 hadoop-2.9.2]$ sbin/stop-dfs.sh

启动/关闭Yarn

[root@linux123 hadoop-2.9.2]$ sbin/start-yarn.sh
[root@linux123 hadoop-2.9.2]$ sbin/stop-yarn.sh

3.2 集群测试

3.2.1 存储测试

hdfs dfs -mkdir -p /test/input
#本地hoome目录创建一个文件
cd /root
vim test.txt
hello hdfs
#上传linxu文件到Hdfs
hdfs dfs -put /root/test.txt /test/input
#从Hdfs下载文件到linux本地
hdfs dfs -get /test/input/test.txt

3.2.2 计算测试

调用MapReduce自带的wordcount统计文本单词数量

在HDFS文件系统根目录下面创建一个wcinput文件夹
```
[root@linux121 hadoop-2.9.2]$ hdfs dfs -mkdir /wcinput
```

在/root/目录下创建一个wc.txt文件(本地文件系统)

[root@linux121 hadoop-2.9.2]$ cd /root/
[root@linux121 wcinput]$ touch wc.txt
[root@linux121 wcinput]$ vim wc.txt

hadoop mapreduce yarn
hdfs hadoop mapreduce
mapreduce yarn lagou
lagou
lagou

上传wc.txt到Hdfs目录/wcinput下
```
hdfs dfs -put wc.txt /wcinput
```

回到Hadoop目录/opt/lagou/servers/hadoop-2.9.2，执行程序

[root@linux121 hadoop-2.9.2]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar wordcount /wcinput
/wcoutput

查看结果

[root@linux121 hadoop-2.9.2]$ hdfs dfs -cat /wcoutput/part-r-00000
hadoop 2
hdfs 1
lagou 3
mapreduce 3
yarn 2

4 配置历史服务器

4.1 配置历史服务器

在Yarn中运行的任务产生的日志数据不能查看，为了查看程序的历史运行情况，需要配置一下历史日志服务器。具体配置步骤如下：

配置 mapred-site.xml

[root@linux121 hadoop]$ vi mapred-site.xml

在该文件里面增加如下配置：

<!-- 历史服务器端地址 -->
<property>
 <name>mapreduce.jobhistory.address</name>
 <value>linux121:10020</value>
</property>
<!-- 历史服务器web端地址 -->
<property>
 <name>mapreduce.jobhistory.webapp.address</name>
 <value>linux121:19888</value>
</property>

分发mapred-site.xml到其它节点
```
rsync-script mapred-site.xml
```

启动历史服务器

[root@linux121 hadoop-2.9.2]$ sbin/mr-jobhistory-daemon.sh start historyserver

查看JobHistory：http://linux121:19888/jobhistory

4.2 配置日志的聚集

日志聚集：应用(Job)运行完成以后，将应用运行日志信息从各个task汇总上传到HDFS系统上。
日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试。
注意：开启日志聚集功能，需要重新启动NodeManager 、ResourceManager和HistoryManager。
开启日志聚集功能具体步骤如下：

配置yarn-site.xml

[root@linux121 hadoop]$ vi yarn-site.xml

在该文件里面增加如下配置:

<!-- 日志聚集功能使能 -->
<property>
 <name>yarn.log-aggregation-enable</name>
 <value>true</value>
</property>
<!-- 日志保留时间设置7天 -->
<property>
 <name>yarn.log-aggregation.retain-seconds</name>
 <value>604800</value>
</property>

分发yarn-site.xml到集群其它节点
```
rsync-script yarn-site.xml
```

关闭NodeManager 、ResourceManager和HistoryManager

[root@linux121 hadoop-2.9.2]$ sbin/yarn-daemon.sh stop resourcemanager
[root@linux121 hadoop-2.9.2]$ sbin/yarn-daemon.sh stop nodemanager
[root@linux121 hadoop-2.9.2]$ sbin/mr-jobhistory-daemon.sh stop historyserver

启动NodeManager 、ResourceManager和HistoryManager

[root@linux121 hadoop-2.9.2]$ sbin/yarn-daemon.sh start resourcemanager
[root@linux121 hadoop-2.9.2]$ sbin/yarn-daemon.sh start nodemanager
[root@linux121 hadoop-2.9.2]$ sbin/mr-jobhistory-daemon.sh start historyserver

删除HDFS上已经存在的输出文件

[root@linux121 hadoop-2.9.2]$ bin/hdfs dfs -rm -R /wcoutput

执行WordCount程序

[root@linux121 hadoop-2.9.2]$ hadoop jar share/hadoop/mapreduce/hadoopmapreduce-
examples-2.9.2.jar wordcount /wcinput /wcoutput

查看日志：http://linux121:19888/jobhistory

大数据：1-2 Apache Hadoop完全分布式集群搭建

1.虚拟机环境准备

1.1 虚拟机硬盘分配

1.2 配置静态IP

1.3 关闭防火墙与selinux

1.3.1 关闭防火墙

1.3.2 关闭selinux

1.4 设置hostname并配置与IP的映射

1.5 配置免密登录

1.6 集群时间同步

2.安装Hadoop

2.1 安装java和Hadoop并配置环境变量

2.2 集群配置

2.2.1 HDFS集群配置

2.2.2 MapReduce集群配置

2.2.3 Yarn集群配置

2.3 使用rsync分发配置

3.集群启动与测试

3.1 集群启动

3.1.1 单节点启动

3.1.2 集群群启

3.2 集群测试

3.2.1 存储测试

3.2.2 计算测试

4 配置历史服务器

4.1 配置历史服务器

4.2 配置日志的聚集

靖安1016

引用和评论

python脚本合并多个excel到一个excel

【Hadoop】HDFS架构解析

【Hadoop】HBase系统解析及适用场景

基于 pyflink 的算法工作流设计和改造

MCP+Hologres+LLM 搭建数据分析 Agent

某全球领先网络解决方案提供商基于 Apache Doris 统一 Trino、Pinot、Iceberg、Kyuubi技术栈

SelectDB 实时分析性能突出，宝舵成本锐减与性能显著提升的双赢之旅

大数据：1-2 Apache Hadoop完全分布式集群搭建

1.虚拟机环境准备

1.1 虚拟机硬盘分配

1.2 配置静态IP

1.3 关闭防火墙与selinux

1.3.1 关闭防火墙

1.3.2 关闭selinux

1.4 设置hostname并配置与IP的映射

1.5 配置免密登录

1.6 集群时间同步

2.安装Hadoop

2.1 安装java和Hadoop并配置环境变量

2.2 集群配置

2.2.1 HDFS集群配置

2.2.2 MapReduce集群配置

2.2.3 Yarn集群配置

2.3 使用rsync分发配置

3.集群启动与测试

3.1 集群启动

3.1.1 单节点启动

3.1.2 集群群启

3.2 集群测试

3.2.1 存储测试

3.2.2 计算测试

4 配置历史服务器

4.1 配置历史服务器

4.2 配置日志的聚集

靖安1016

引用和评论

python脚本合并多个excel到一个excel

【Hadoop】HDFS架构解析

【Hadoop】HBase系统解析及适用场景

基于 pyflink 的算法工作流设计和改造

MCP+Hologres+LLM 搭建数据分析 Agent

某全球领先网络解决方案提供商 基于 Apache Doris 统一 Trino、Pinot、Iceberg、Kyuubi技术栈

SelectDB 实时分析性能突出，宝舵成本锐减与性能显著提升的双赢之旅

某全球领先网络解决方案提供商基于 Apache Doris 统一 Trino、Pinot、Iceberg、Kyuubi技术栈