ClickHouse跳数索引（Skip Index）的类型与选择策略

Question

ClickHouse跳数索引（Skip Index）有minmax/set/bloom_filter/ngrambf_v1/tokenbf_v1等多种类型。请详细解释每种索引类型的原理、适用查询模式、内存开销和配置建议。以用户行为日志分析场景为例，说明如何为不同查询模式选择合适的Skip Index组合。。大数据 面...

编译有声 · Accepted Answer

ClickHouse跳数索引类型详解： 1. minmax（最小/最大索引） INDEX idx_timestamp (event_time) TYPE minmax GRANULARITY 3 记录每个Granule（默认8192行）的最小值和最大值 适用于范围过滤（>、<、BETWEEN） 内存开销：极小（每Granule 2个值） 2. set（集合索引） INDEX idx_status (status) TYPE set(100) GRANULARITY 4 存储Granule内所有不重复值（上限100个） 适用于等值查询低基数字段（status/type/category） 基度过高时效果差（超过set_max_size全部存储） 3. bloom_filter（布隆过滤器索引） INDEX idx_url (page_url) TYPE bloom_filter(0.025) GRANULARITY 3 使用布隆过滤器判断值是否存在于Granule 适用于随机等值查询高基数字段（URL/ID/手机号） 参数：误判率（默认0.025=2.5%） 支持 LIKE...

ClickHouse跳数索引（Skip Index）的类型与选择策略

回答

编译有声