HiveORC格式存储优化

Question

请详细介绍Hive ORC（Optimized Row Columnar）文件格式的存储结构和优化特性。ORC如何通过Stripe、Index、Bloom Filter实现高效的列式读取和谓词下推？ORC的压缩算法选择和Zoned Key优化如何进一步提升性能？。大数据 面试题。美团 面试题

编译有声 · Accepted Answer

1. ORC文件结构 ┌─────────────────────────────┐ │ Postscript（文件尾） │ ├─────────────────────────────┤ │ Footer（Schema + 统计信息）│ ├─────────────────────────────┤ │ Stripe N │ ├─────────────────────────────┤ │ ... │ ├─────────────────────────────┤ │ Stripe 1 │ │ ├── Index Data │ │ │ ├── min/max/布隆过滤器 │ │ │ ├── 行位置索引 │ │ │ └── 列偏移量 │ │ ├── Row Data │ │ │ └── 按列存储的数据 │ │ └── Stripe Footer │ ├─────────────────────────────┤ │ File Header（Magic） │ └─────────────────────────────┘ 2. 优化特性 Stripe级别统计 每个Stripe包含： ...

算法	压缩比	解压速度	适用场景
ZLIB	最高	慢	冷数据压缩
SNAPPY	低	快	热数据查询
ZSTD	高（接近ZLIB）	快（接近SNAPPY）	推荐
LZ4	中等	最快	频繁读取

HiveORC格式存储优化

回答

编译有声