Spark数据倾斜解决方案

Question

请列举Spark中数据倾斜（Data Skew）的常见原因和解决方案，包括调优参数和代码层面的优化。。大数据 面试题。阿里巴巴 面试题

小字辈 · Accepted Answer

数据倾斜表现： 某些Task处理大量数据而其他Task空闲，导致Job整体延迟高。 常见原因： Shuffle时Key分布不均匀（如null值过多、热点Key） 数据本身就有倾斜（如某些品类的订单量远大于其他品类） Join时大表Join大表且Join Key倾斜 解决方案： 1. 过滤或拆分异常Key： 过滤掉导致倾斜的Key（如null值） 将热点Key单独处理后再合并结果 2. 提高并行度（Salting / 加盐）： 在Key上加随机前缀/suffix（1~N）打散 对groupByKey/reduceByKey：先加盐聚合，再去盐聚合 示例：rdd.map(kv => ((kv._1, Random.nextInt(10)), kv._2)).reduceByKey(_+_).map(kv => (kv._1._1, kv._2)).reduceByKey(_+_) 3. 调整并行度参数： spark.sql.shuffle.partitions（默认200，根据数据量调大） spark.default.parallelism 4. 广播小表（MapJoin）：...

Spark数据倾斜解决方案

回答

小字辈