Spark SQL Join策略选择与优化

Question

Spark SQL支持哪些Join策略（Broadcast Hash Join、Sort Merge Join、Shuffled Hash Join、Broadcast Nested Loop Join）？请说明每种策略的触发条件、适用场景和优化参数。如何通过Hint强制使用特定Join策略？AQE如何动态调整Joi...

我还是少年 · Accepted Answer

1. Join策略类型 Broadcast Hash Join（BHJ） -- 小表广播到各Executor SELECT /*+ BROADCAST(t2) */ * FROM t1 JOIN t2 ON t1.id = t2.id; 条件：小表 ≤ spark.sql.autoBroadcastJoinThreshold（默认10MB） 优点：无Shuffle，最快 缺点：小表必须能装入内存 Sort Merge Join（SMJ） -- 两表按Join Key排序后合并 SELECT /*+ MERGE(t1) */ * FROM t1 JOIN t2 ON t1.id = t2.id; 条件：大表对大表 优点：稳定，支持大数据量 缺点：需要Sort + Shuffle Shuffled Hash Join（SHJ） SELECT /*+ SHUFFLE_HASH(t1) */ * FROM t1 JOIN t2 ON t1.id = t2.id; 条件：一张表可装入内存 优点：比SMJ少一次Sort 缺点：内存消耗大 Broadcast Nested Loop Join（BN...

Spark SQL Join策略选择与优化

回答

我还是少年