Hive数据倾斜Join优化

Question

请列举Hive中处理数据倾斜的Join优化方法，包括MapJoin、BucketMapJoin和SkewJoin。。大数据 面试题。字节跳动 面试题

小字辈 · Accepted Answer

Hive Join数据倾斜常见表现： 某个Reducer处理大量数据（如99%的订单关联同一个用户），其他Reducer空闲。 1. MapJoin（Broadcast Join / 小表Join大表）： 原理： 将小表（< hive.mapjoin.smalltable.filesize，默认25MB）加载到内存，在Map端完成Join 优点： 完全避免Shuffle，无数据倾斜问题 配置： SET hive.auto.convert.join=true; SET hive.mapjoin.smalltable.filesize=25000000; SELECT /*+ MAPJOIN(b) */ a.*, b.name FROM large a JOIN small b ON a.id = b.id; 2. Bucket MapJoin（分桶Join）： 条件： 两张Join表在Join Key上使用相同的分桶数和分桶列 原理： 相同桶号的数据在同一文件中，只需Join对应桶的文件 优点： 大幅减少Shuffle数据量，Map端即可完成 配置： SET hive.optim...

Hive数据倾斜Join优化

回答

小字辈