PySpark一：Windows10环境搭建

愚公爬山

3 月 17 日新加坡

阅读 2 分钟

0

Spark

Apache Spark是一个多语言引擎，用于在单节点机器或集群上执行数据工程、数据科学和机器学习。
https://spark.apache.org/

Spark环境搭建

1: 下载spark，解压后放到了sparks3.5.5目录中
https://spark.apache.org/downloads.html

并添加环境变量

2：访问https://github.com/steveloughran/winutils，下载hadoop-3.0.0/bin,

把它解压放到了C:\d\winutils\目录中，并
添加了HADOOP_HOME，设置的值是C:\d\winutils\hadoop-3.0.0，然后编辑环境变量Path,把两个bin目录放到Path环境变量的值中

注意： Spark目前不能和高于Java11的版本很好兼容，为了搭建环境，我把java 版本改为了openlogic的11.
在把下载来的java解压到某个目录后，加上JAVA_HOME变量,并把%JAVA_HOME%\bin目录也加到Path目录后，可以新开cmd窗口查看JAVA 设置是否生效 Java -version

启动spark:

check pyspark:

Pycharm可以用来作为开发工具来开发spark相关应用，具体的只要装上pyspark( pip install pyspark==3.5.5)，就可以创建python工程来访问搭建好的spark环境了。

我们把采集到的plans.csv放到python工程中，利用下面的代码可以利用spark来加载和展示csv的具体内容。这里的local[2]是指利用本地的spark环境， 2说明起动两个thread,一个master,一个worker.如果设置为3，则一个是master,两个worker.

在python 没有结束退出之前，可以通过http://localhost:4040/jobs来查看Job信息。为了防止程序完成的太快退出，可以加一个sleep。

Gitee: https://gitee.com/yanghang1977/pyspark

阅读 588更新于 3 月 28 日

愚公爬山

1 声望0 粉丝

« 上一篇

Java-采集招生计划

下一篇 »

PySpark二：常见数据格式及如何读写

引用和评论

推荐阅读

create-react-app 初始化app使用typescript

愚公爬山阅读 283

【活动回顾】StarRocks Singapore Meetup #2 @Shopee

StarRocks阅读 581

NoETL×大模型：Aloudata重构数据智能新范式，开启Chat BI新落地之道

Aloudata大应科技阅读 506

好数据驱动真智能：NoETL + 大模型 = 万数皆可问

Aloudata大应科技阅读 495

业界首场 NoETL 指标平台最佳实践研讨会成功举办，打造 AI 时代数据底座

Aloudata大应科技阅读 495

ETL与ELT核心技术解析：如何选择最优数据集成方案

RestCloud阅读 473

鹰角：EMR Serverless Spark 在《明日方舟》游戏业务的应用

阿里云大数据AI阅读 470

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。