Spark 2.7.3 VMware Ubuntu 16.04 虚拟机搭建

Spark 2.7.3 配置教程

在 root 用户下操作

ubunut中用到的文件及位置

/home
    /hadoop
        /hadoop-2.7.3
    /java
        /java1.8.0_112
    /scala
        /scala-2.12.1
    /spark
        /spark-2.1.0-bin-hadoop2.7

环境搭建

虚拟机网络设置

在windows下打开网络和共享中心中设置 VMware Network Adapter VMnet1 的IPv4

item	value
IP 地址	192.168.32.10
子网掩码	255.255.255.0
默认网关	192.168.32.1

Linux网络设置

Linux 的 IP 与虚拟机的 IP 在同一网段即可。即：IP 的最后一部分不同即可

修改主机名
1. 编辑文件vim /etc/hostname，进入后，删除原有内容，改为新名字
2. 修改映射vim /etc/hosts，加入类似语句
```
    IP                  主机名
    192.163.32.110      hadoop1
```
关闭防火墙
```
ufw disable
```
免密码登陆

生成公钥和私钥

ssh-keygen

出现提示，一路enter

mv id_rsa.pub authorized_keys

Hadoop 搭建

配置 Java 和 Hadoop

    进入 root 目录，修改文件
        cd
        vim .bashrc
    加入
        # Java setting
        export JAVA_HOME=/home/java/jdk1.8.0_112

        # Hadoop setting
        export  HADOOP_HOME=/home/hadoop/hadoop-2.7.3

        # PATH setting
        export PATH=.:$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH
    使其生效 
        source .bashrc

    cd /home/hadoop/hadoop-2.7.3/etc/hadoop
    vim hadoop-env.sh    在其中显示指明 JAVA_HOME 的地址
    vim core-site.xml    复制官网(配置机器名)

HDFS

    cd /home/hadoop/hadoop-2.7.3/etc/hadoop
    vim hdfs-site.xml   复制官网（配置副本数，默认为1）

HDFS 是文件系统，启动前要进行格式化

    格式化
        hdfs namenode -format
    启动 HDFS 
        start-dfs.sh

    基本操作
        显示目录
            hadoop fs -ls / 
        创建 test 文件夹
            hadoop fs -mkdir /test

YARN

    cd /home/hadoop/hadoop-2.7.3/etc/hadoop
    cp -i mapred-site.xml.example mapred-site.xml
    vim mapred-site.xml     复制官网内容
    vim yarn-site.xml       复制官网内容

Spark 搭建

    配置文件
        cd 
        vim .bashrc
    添加
        # Scala setting
        export SCALA_HOME=/home/scala/scala-2.12.1

        # Spark setting
        export SPARK_HOME=/home/spark/spark-2.1.0-bin-hadoop2.7
    修改 PATH 为
        export PATH=.:$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH
    使其生效
        source .bashrc

    配置文件
        cd /home/spark/spark-2.1.0-bin-hadoop2.7/conf
        cp -i spark-env.sh.template spark-env.sh
        vim spark-env.sh
    添加
        export SPARK_MASTER_IP=hadoop1
        export SPARK_MASTER_PORT=7077
        export HADOOP_CONF_DIR=/home/hadoop/hadoop-2.7.3/etc/hadoop
        export SPARK_WORKER_CORES=2
        # 85% total memory
        export SPARK_WORKER_MEMORY=1g
        

    启动
        cd /home/spark/spark-2.1.0-bin-hadoop2.7/sbin
        start-all.sh

    页面浏览地址
        192.168.32.110:8080

    进入 Spark-shell
        spark-shell

最终的配置文件

    配置文件--.bashrc
        cd 
        vim .bashrc

        添加
            # Java setting
            export JAVA_HOME=/home/java/jdk1.8.0_112

            # Hadoop setting
            export  HADOOP_HOME=/home/hadoop/hadoop-2.7.3

            # PATH setting
            export PATH=.:$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH

            # Scala setting
            export SCALA_HOME=/home/scala/scala-2.12.1

            # Spark setting
            export SPARK_HOME=/home/spark/spark-2.1.0-bin-hadoop2.7

            export PATH=.:$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH

    使其生效 
        source .bashrc

    配置文件--hadoop  
        cd /home/hadoop/hadoop-2.7.3/etc/hadoop

        vim hadoop-env.sh    在其中显示指明 JAVA_HOME 的地址

        vim core-site.xml    复制官网配(置机器名)
            <configuration>
                <property>
                    <name>fs.defaultFS</name>
                    <value>hdfs://机器名:9000</value>
                </property>
            </configuration>

    配置文件--HDFS
        cd /home/hadoop/hadoop-2.7.3/etc/hadoop
        vim hdfs-site.xml   复制官网（配置副本数，默认为1）
            <configuration>
                <property>
                    <name>dfs.replication</name>
                    <value>1</value>
                </property>
            </configuration>

    配置文件--YARN
        cd /home/hadoop/hadoop-2.7.3/etc/hadoop

        cp -i mapred-site.xml.example mapred-site.xml
        vim mapred-site.xml     复制官网内容
            <configuration>
                <property>
                    <name>mapreduce.framework.name</name>
                    <value>yarn</value>
                </property>
            </configuration>

        vim yarn-site.xml       复制官网内容
            <configuration>
                <property>
                    <name>yarn.nodemanager.aux-services</name>
                    <value>mapreduce_shuffle</value>
                </property>
            </configuration>

    配置文件--Spark
        cd /home/spark/spark-2.1.0-bin-hadoop2.7/conf
        cp -i spark-env.sh.template spark-env.sh
        vim spark-env.sh
        添加
            export SPARK_MASTER_IP=hadoop1
            export SPARK_MASTER_PORT=7077
            export HADOOP_CONF_DIR=/home/hadoop/hadoop-2.7.3/etc/hadoop
            export SPARK_WORKER_CORES=2
            # 85% total memory
            export SPARK_WORKER_MEMORY=1g

Ubuntu 常用命令

重启网络
```
    service network-manager restart
```
配置 IP 子网掩码网关
```
    vim  /etc/network/interfaces
```

在Xshell中登陆VMware中的Ubuntu

1. 安装 ssh apt-get install ssh
1. 修改 root 密码 passwd root
1. 配置文件，允许以 root 用户通过 ssh 登陆

    vim  /etc/ssh/ssh_config
    将 PermitRootLogin  prohibit-password
    改为 PermitRootLogin yes
    重启 ssh 服务:    service ssh restart

复制文件，并重命名
```
    cp -i 文件名  新文件名
```
一直使用root
```
    sudo -s
```

Spark 2.7.3 VMware Ubuntu 16.04 虚拟机搭建

Spark 2.7.3 配置教程

在 root 用户下操作

ubunut中用到的文件及位置

环境搭建

虚拟机网络设置

Linux网络设置

Hadoop 搭建

Spark 搭建

最终的配置文件

Ubuntu 常用命令

huggingstar

引用和评论

win10 python 3.6.6 安装 scrapy

【活动回顾】StarRocks Singapore Meetup #2 @Shopee

鹰角：EMR Serverless Spark 在《明日方舟》游戏业务的应用

Spark on K8s 在vivo大数据平台的混部实战

最佳实践 | 在 EMR Serverless Spark 中实现 Doris 读写操作

最佳实践 | 在 EMR Serverless Spark 中实现 StarRocks 读写操作

立马耀：通过阿里云 Serverless Spark 和 Milvus 构建高效向量检索系统，驱动个性化推荐业务