大数据Join数据倾斜解决方案

Question

Spark/Hive中Join操作的数据倾斜有哪些常见表现和原因？请系统性地说明MapJoin、BucketMapJoin、SkewJoin三种优化手段的原理、适用条件和配置方法。对于无法用以上方案解决的超大表Join倾斜，还有什么高级方案？。大数据 面试题。字节跳动 面试题

小字辈 · Accepted Answer

1. 数据倾斜表现 表现： - 大部分Task几秒完成，少数Task运行几十分钟 - 磁盘Spill严重 - OOM（单个Task处理数据量过大） - 进度卡在99% 原因： - Key分布不均（如NULL值过多、热点用户） - 业务倾斜（大V、爆款商品） - Join键设计不合理 2. MapJoin（Map端Join） 原理：将小表广播到所有Map Task的内存中，直接在Map端完成Join，避免Shuffle。 -- Hive自动MapJoin SET hive.auto.convert.join = true; SET hive.mapjoin.smalltable.filesize = 25000000; -- 25MB -- Spark自动广播 SET spark.sql.autoBroadcastJoinThreshold = 10485760; -- 10MB 条件：小表≤阈值大小、非Bucket Map Join 3. BucketMapJoin（分桶MapJoin） 原理：两表按相同字段分桶（桶数成倍数关系），Join在同桶内进行。 -- 建桶表 CREATE ...

大数据Join数据倾斜解决方案

回答

小字辈