Spark 性能优化 | Apache Spark 调优指南

Apache Spark 性能优化指南

技能概述

Spark Optimization 提供生产级别的 Apache Spark 性能优化方案，涵盖分区策略、内存调优、Shuffle 优化和数据倾斜处理，帮助解决 Spark 慢作业、OOM 和扩展性问题。

适用场景

1. Spark 慢作业优化

当 Spark 作业执行时间过长，需要从执行计划、分区策略、Shuffle 开销等维度排查瓶颈。本技能提供系统化的性能分析方法，包括 Spark UI 解读、执行计划分析和常见性能问题的解决模式。

2. 大规模数据 pipeline 扩展

处理 TB 级数据时，合理配置 executor 资源、分区策略和内存参数至关重要。本技能给出生产环境的配置模板和调优建议，帮助 Spark 作业平稳扩展到更大数据规模。

3. 数据倾斜和内存问题排查

数据倾斜导致个别任务拖慢整个作业，内存配置不当引发频繁 GC 或 OOM。本技能提供倾斜检测方法、加盐策略和内存分配最佳实践，快速定位并解决这类问题。

核心功能

1. 智能分区策略

根据数据规模计算最优分区数（128-256MB/分区），避免分区过多导致调度开销，或分区过少造成资源浪费。支持分区裁剪、动态分区写入等优化技巧，减少不必要的数据扫描。

2. Join 性能优化

针对不同场景选择最优 Join 策略：小表使用广播 join 避免 Shuffle，大表使用 bucket join 预排序消除运行时 Shuffle，数据倾斜场景提供 AQE 自动优化和手动加盐方案。

3. 内存与缓存管理

精确计算 executor 内存分配比例，平衡执行内存和缓存内存，避免内存溢出或频繁 spill。提供 cache/persist 选择指南和 checkpoint 使用时机，确保内存高效利用。

常见问题

Spark 作业运行很慢，应该从哪里开始排查？

首先通过 Spark UI 查看作业的执行计划和阶段耗时，重点关注是否有数据倾斜（个别任务时间远超平均值）、频繁的磁盘 spill 或 GC 时间过长。常见原因包括：分区数不合理、Shuffle 数据量过大、小文件过多、序列化开销高。建议启用 AQE 自适应优化，使用 explain() 分析执行计划，针对性调整 shuffle 分区数和广播阈值。

Spark 分区数设置多少合适？

分区大小建议控制在 128MB-256MB 之间。分区数 = 数据量(GB) × 1024 / 分区大小(MB)。例如 100GB 数据，设为 128MB 分区，约需 800 个分区。分区过少会导致 executor 利用率低和内存压力，分区过多会增加任务调度开销。使用 AQE 时可设置 spark.sql.shuffle.partitions=auto 让 Spark 自动合并小分区。

Spark 数据倾斜有哪些解决方案？

数据倾斜表现为少数任务耗时远超平均值。解决方案包括：1）启用 AQE skew join 自动优化；2）对倾斜 key 加盐，将热点数据分散到多个分区；3）使用 broadcast join 将小表广播到所有 executor；4）调整分区策略，增加倾斜维度的分区数。可通过 spark_partition_id() 统计各分区数据量，倾斜比超过 2 倍即需处理。

spark-optimization

作者

分类

安装