Spark AQE动态分区合并与动态Join策略的协同工作原理

Question

Spark AQE的动态分区合并（Coalesce Partitions）和动态Join策略切换（SMJ→BHJ）是如何协同工作的？当一个Shuffle Stage结束时，AQE先做分区合并还是先判断Join策略？请以Shuffle SortMergeJoin为例，描述AQE的完整决策链路。给出一个通过Spark U...

我还是少年 · Accepted Answer

Spark AQE Coalesce Partitions + Dynamic Join Strategy协同机制： 1. 决策链路： Stage 0 (Shuffle Write 完成) ↓ 1. AQE收集所有Map输出的分区大小统计信息 ↓ 2. 先执行 动态分区合并（Coalesce Partitions） → 检测小分区（< advisoryPartitionSizeInBytes） → 合并相邻小分区，生成新的分区方案 → 更新Shuffle Read的分区计划 ↓ 3. 再判断 动态Join策略 → 检查右表Shuffle后的实际数据量 → 若小于 autoBroadcastJoinThreshold → 将SortMergeJoin替换为BroadcastHashJoin → 若检测到倾斜分区 → 触发 Skew Join优化 ↓ 4. 生成优化后的 Stage 1 (Shuffle Read) ↓ 5. 提交Task执行 2. 为什么先合并再判断Join策略： 分区合并会改变分区的数量和大小 合并后的分区大小才是实际要处理的数据量 基于合并后的数据量判断是否可...

Spark AQE动态分区合并与动态Join策略的协同工作原理

回答

我还是少年