对优化 Apache Spark 程序的新视角

主要观点：调试缓慢的 Spark 作业需注意常见陷阱，需从集群配置、代码编写、数据存储和监控等多方面进行性能优化，以获得顶级性能。
关键信息：

Spark 架构及延迟评估：包含驱动程序、执行器、集群管理器等，延迟评估可优化操作。
Spark 配置调优：动态资源分配可根据负载调整执行器数量；合理配置内存，避免内存溢出；调整 shuffle 并行度（分区数），避免数据处理问题。
代码级优化：优先使用 DataFrame/Dataset API 以利用优化器；尽早过滤数据以减少 shuffle；使用高效的连接策略（广播小数据）；避免使用 UDF 而利用内置函数；明智地缓存数据以复用。
数据存储和格式优化：使用列存储格式（如 Parquet、ORC 并压缩）；按磁盘分区数据以进行裁剪；考虑桶化和排序以优化特定操作。
监控：利用 Spark Web UI 查看作业性能指标，如任务时长、shuffle 读写等，还可启用事件日志等工具进行分析，优化是迭代过程。
重要细节：
动态资源分配需设置spark.dynamicAllocation.enabled等相关参数，可在 2 到 10 个执行器间动态调整。
内存配置要区分驱动程序和执行器的内存用途，spark.memory.fraction控制执行和存储区域的内存比例。
调整 shuffle 分区数时，一般以 100MB - 200MB 数据/分区为宜，Spark 3.x 及以后有自适应查询执行（AQE）功能可自动优化。
代码优化中，DataFrame/Dataset API 比 RDD 更高效，要尽早过滤数据，广播小数据以优化连接，避免使用 UDF 等。
数据存储优化时，选择列存储格式可节省 I/O，按常用键分区数据可裁剪不必要的数据读取，避免过多小文件。
监控时通过 Spark Web UI 可发现性能瓶颈，如大量 Shuffle Read 等，还可借助其他工具分析运行情况。