ClickHouse MergeTree表引擎原理

Question

请详细介绍ClickHouse MergeTree表引擎的存储架构，包括数据分区/排序键/主键索引/跳数索引的工作机制。。大数据 面试题。阿里巴巴 面试题

编译有声 · Accepted Answer

MergeTree是ClickHouse最核心的引擎家族基础。 一、数据存储结构： 分区（Partition）： PARTITION BY指定分区键（如toYYYYMM(date)） 每个分区独立存储为目录partitionId_partNumber_minBlockNum_maxBlockNum_level 分区可以提高查询裁剪效率 数据片段（Data Part）： 每个分区内数据按主键排序存储为多个Data Part 后台自动合并（Merge）较小Part为大Part 二、索引机制： 1. 主键索引（稀疏索引）： ORDER BY (CounterID, Date) -- 排序键=主键 不是传统B-Tree，而是每N行（granularity）记录一行索引 index_granularity（默认8192行）控制索引粒度 索引文件：primary.idx（主键值） 2. 跳数索引（Skip Index）： INDEX idx_name (CounterID) TYPE minmax GRANULARITY 5 类型：minmax/set/bloom_filter/ngrambf_...

ClickHouse MergeTree表引擎原理

回答

编译有声