Spark AQE自动处理数据倾斜

Question

Spark 3.x的Adaptive Query Execution（AQE）如何自动处理Join数据倾斜？请说明AQE SkewJoin的动态优化原理，包括倾斜分区检测算法、拆分策略和运行时计划调整机制。如何配置AQE参数优化倾斜Join性能？。大数据 面试题。腾讯 面试题

苦行僧 · Accepted Answer

1. AQE SkewJoin原理 Spark AQE在运行时检测并优化数据倾斜，无需手动干预： 执行流程： 1. Stage执行完成后收集统计信息 2. 分析Shuffle分区大小分布 3. 检测倾斜分区（远大于中位数） 4. 将倾斜分区拆分为多个子分区 5. 动态调整后续Stage的Join计划 2. 倾斜检测算法 // 检测条件： // 1. 分区大小 > skewedPartitionThresholdInBytes（默认256MB） // 2. 分区大小 > 中位数 * skewedPartitionFactor（默认5） // 3. 分区大小 > skewedPartitionThresholdInBytes 且 // 该分区大小 > 所有分区中位数 * 5 // 实际校验 val isSkewed = size > threshold && size > median * factor 3. 拆分策略 原始倾斜分区 [100GB数据] ↓ 拆分为 N 个子分区： [10GB] [10GB] [10GB] ... [10...

Spark AQE自动处理数据倾斜

回答

苦行僧