Spark 2.7.3 配置教程
在 root 用户下操作
ubunut中用到的文件及位置
/home
/hadoop
/hadoop-2.7.3
/java
/java1.8.0_112
/scala
/scala-2.12.1
/spark
/spark-2.1.0-bin-hadoop2.7
环境搭建
虚拟机网络设置
- 在windows下
打开网络和共享中心
中设置 VMware Network Adapter VMnet1 的IPv4
item | value |
---|---|
IP 地址 | 192.168.32.10 |
子网掩码 | 255.255.255.0 |
默认网关 | 192.168.32.1 |
Linux网络设置
Linux 的 IP 与虚拟机的 IP 在同一网段即可。即:IP 的最后一部分不同即可
-
修改主机名
- 编辑文件
vim /etc/hostname
,进入后,删除原有内容,改为新名字 -
修改映射
vim /etc/hosts
,加入类似语句IP 主机名 192.163.32.110 hadoop1
- 编辑文件
-
关闭防火墙
ufw disable
- 免密码登陆
-
生成公钥和私钥
ssh-keygen 出现提示,一路enter mv id_rsa.pub authorized_keys
Hadoop 搭建
- 配置 Java 和 Hadoop
进入 root 目录,修改文件
cd
vim .bashrc
加入
# Java setting
export JAVA_HOME=/home/java/jdk1.8.0_112
# Hadoop setting
export HADOOP_HOME=/home/hadoop/hadoop-2.7.3
# PATH setting
export PATH=.:$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH
使其生效
source .bashrc
cd /home/hadoop/hadoop-2.7.3/etc/hadoop
vim hadoop-env.sh 在其中显示指明 JAVA_HOME 的地址
vim core-site.xml 复制官网(配置机器名)
- HDFS
cd /home/hadoop/hadoop-2.7.3/etc/hadoop
vim hdfs-site.xml 复制官网(配置副本数,默认为1)
HDFS 是文件系统,启动前要进行格式化
格式化
hdfs namenode -format
启动 HDFS
start-dfs.sh
基本操作
显示目录
hadoop fs -ls /
创建 test 文件夹
hadoop fs -mkdir /test
- YARN
cd /home/hadoop/hadoop-2.7.3/etc/hadoop
cp -i mapred-site.xml.example mapred-site.xml
vim mapred-site.xml 复制官网内容
vim yarn-site.xml 复制官网内容
Spark 搭建
配置文件
cd
vim .bashrc
添加
# Scala setting
export SCALA_HOME=/home/scala/scala-2.12.1
# Spark setting
export SPARK_HOME=/home/spark/spark-2.1.0-bin-hadoop2.7
修改 PATH 为
export PATH=.:$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH
使其生效
source .bashrc
配置文件
cd /home/spark/spark-2.1.0-bin-hadoop2.7/conf
cp -i spark-env.sh.template spark-env.sh
vim spark-env.sh
添加
export SPARK_MASTER_IP=hadoop1
export SPARK_MASTER_PORT=7077
export HADOOP_CONF_DIR=/home/hadoop/hadoop-2.7.3/etc/hadoop
export SPARK_WORKER_CORES=2
# 85% total memory
export SPARK_WORKER_MEMORY=1g
启动
cd /home/spark/spark-2.1.0-bin-hadoop2.7/sbin
start-all.sh
页面浏览地址
192.168.32.110:8080
进入 Spark-shell
spark-shell
最终的配置文件
配置文件--.bashrc
cd
vim .bashrc
添加
# Java setting
export JAVA_HOME=/home/java/jdk1.8.0_112
# Hadoop setting
export HADOOP_HOME=/home/hadoop/hadoop-2.7.3
# PATH setting
export PATH=.:$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH
# Scala setting
export SCALA_HOME=/home/scala/scala-2.12.1
# Spark setting
export SPARK_HOME=/home/spark/spark-2.1.0-bin-hadoop2.7
export PATH=.:$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH
使其生效
source .bashrc
配置文件--hadoop
cd /home/hadoop/hadoop-2.7.3/etc/hadoop
vim hadoop-env.sh 在其中显示指明 JAVA_HOME 的地址
vim core-site.xml 复制官网配(置机器名)
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://机器名:9000</value>
</property>
</configuration>
配置文件--HDFS
cd /home/hadoop/hadoop-2.7.3/etc/hadoop
vim hdfs-site.xml 复制官网(配置副本数,默认为1)
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
配置文件--YARN
cd /home/hadoop/hadoop-2.7.3/etc/hadoop
cp -i mapred-site.xml.example mapred-site.xml
vim mapred-site.xml 复制官网内容
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
vim yarn-site.xml 复制官网内容
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
配置文件--Spark
cd /home/spark/spark-2.1.0-bin-hadoop2.7/conf
cp -i spark-env.sh.template spark-env.sh
vim spark-env.sh
添加
export SPARK_MASTER_IP=hadoop1
export SPARK_MASTER_PORT=7077
export HADOOP_CONF_DIR=/home/hadoop/hadoop-2.7.3/etc/hadoop
export SPARK_WORKER_CORES=2
# 85% total memory
export SPARK_WORKER_MEMORY=1g
Ubuntu 常用命令
-
重启网络
service network-manager restart
-
配置 IP 子网掩码 网关
vim /etc/network/interfaces
-
在Xshell中登陆VMware中的Ubuntu
- 安装 ssh
apt-get install ssh
- 安装 ssh
- 修改 root 密码
passwd root
- 修改 root 密码
- 配置文件,允许以 root 用户通过 ssh 登陆
vim /etc/ssh/ssh_config 将 PermitRootLogin prohibit-password 改为 PermitRootLogin yes 重启 ssh 服务: service ssh restart
-
复制文件,并重命名
cp -i 文件名 新文件名
-
一直使用root
sudo -s
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。