Spark History Server配置

本文是对于自己编译的Spark部署，如果是CDH集成的Spark则可直接在管理界面中查看。

1.在hdfs中创建一个目录，用于保存Spark运行日志信息。

]$ hdfs dfs -mkdir /spark/historylog

2.配置spark conf，使Spark History Server从此目录中读取日志信息

]$ vim spark-defaults.conf
spark.eventLog.compress          true
spark.eventLog.dir               hdfs://nameservice1/spark/historylog
spark.yarn.historyServer.address hadoop002:18080

其中spark.eventLog.dir保存日志相关信息的路径，可以是hdfs://开头的HDFS路径，也可以是file://开头的本地路径，都需要提前创建。

3.添加环境参数

]$ vim spark-env.sh
    export SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://mycluster/spark/historylog \
    -Dspark.history.ui.port=18080 \
    -Dspark.history.retainedApplications=20"

4.启动服务

]# ./sbin/start-history-server.sh

Spark History Server配置

1.在hdfs中创建一个目录，用于保存Spark运行日志信息。

2.配置spark conf，使Spark History Server从此目录中读取日志信息

3.添加环境参数

4.启动服务

Wish大人

引用和评论

魔兽的护甲

Neovim 集成 DeepSeek & Copilot 双 AI 编程神器

使用vim做笔记-vimwiki

使用vim做笔记-vimtex

PySpark一：Windows10环境搭建

【活动回顾】StarRocks Singapore Meetup #2 @Shopee

鹰角：EMR Serverless Spark 在《明日方舟》游戏业务的应用