Hive分区裁剪与谓词下推优化

Question

Hive的分区裁剪（Partition Pruning）和谓词下推（Predicate Pushdown）是如何工作的？请说明Static Partition Pruning和Dynamic Partition Pruning的区别，以及在ORC/Parquet列式存储格式下的Min-Max和Bloom Filter...

我还是少年 · Accepted Answer

1. 分区裁剪（Partition Pruning） Static Partition Pruning（静态） -- 编译时确定分区 SELECT * FROM orders WHERE dt = '2024-01-01'; -- 直接定位到该分区目录 --- 只扫描1个分区而非365个 Dynamic Partition Pruning（动态，Spark特有） -- 运行时根据子查询结果动态裁剪 SELECT /*+ DYNAMIC_PRUNING */ * FROM orders o JOIN limited_users u ON o.user_id = u.user_id WHERE u.vip_level = 'gold'; -- Spark AQE动态构建裁剪条件 -- 只扫描包含gold用户的订单分区 2. 谓词下推（Predicate Pushdown） ORC/Parquet列式存储下推 SELECT * FROM events WHERE event_type = 'click' -- 下推到文件读取层 AND timestamp > '2024-01-01'...

优化手段	数据跳过率	适用场景
分区裁剪	90-99%	按时间分区
Min-Max下推	30-70%	有序字段过滤
Bloom Filter下推	50-90%	高基数离散字段

Hive分区裁剪与谓词下推优化

回答

我还是少年