Spark

Apache Spark是一个多语言引擎,用于在单节点机器或集群上执行数据工程、数据科学和机器学习。
https://spark.apache.org/

Spark环境搭建

1: 下载spark,解压后放到了sparks3.5.5目录中
https://spark.apache.org/downloads.html
image.png
并添加环境变量
image.png
2:访问https://github.com/steveloughran/winutils,下载hadoop-3.0.0/bin,
image.png
把它解压放到了C:\d\winutils\目录中,并
添加了HADOOP_HOME,设置的值是C:\d\winutils\hadoop-3.0.0,然后编辑环境变量Path,把两个bin目录放到Path环境变量的值中
image.png
image.png

注意: Spark目前不能和高于Java11的版本很好兼容,为了搭建环境,我把java 版本改为了openlogic的11.
在把下载来的java解压到某个目录后,加上JAVA_HOME变量,并把%JAVA_HOME%\bin目录也加到Path目录后,可以新开cmd窗口查看JAVA 设置是否生效 Java -version

启动spark:
image.png

check pyspark:
image.png

Pycharm可以用来作为开发工具来开发spark相关应用, 具体的只要装上pyspark( pip install pyspark==3.5.5),就可以创建python工程来访问搭建好的spark环境了。

我们把采集到的plans.csv放到python工程中,利用下面的代码可以利用spark来加载和展示csv的具体内容。这里的local[2]是指利用本地的spark环境, 2说明起动两个thread,一个master,一个worker.如果设置为3, 则一个是master,两个worker.
image.png

在python 没有结束退出之前,可以通过http://localhost:4040/jobs来查看Job信息。 为了防止程序完成的太快退出,可以加一个sleep。
image.png
image.png

Gitee: https://gitee.com/yanghang1977/pyspark


愚公爬山
1 声望0 粉丝