TDigest算法与百分位数计算

Question

什么是TDigest算法？在大数据场景中如何高效计算百分位数（P50/P95/P99）？请说明TDigest的数据结构、数据合并（Cluster）策略，以及与常规排序法相比的内存和计算优势。在StarRocks/ClickHouse中如何使用TDigest？。大数据 面试题。腾讯 面试题

我还是少年 · Accepted Answer

1. TDigest原理 TDigest是一种在线分位数估计算法，通过维护一组质心（Centroid）来近似数据分布： 数据结构： Centroid = (mean, weight) # 均值和权重 TDigest = 有序的Centroid列表 [c1(1.2, 10), c2(3.5, 50), c3(7.8, 30), ...] 合并策略： 新数据点找到最近的Centroid合并 如果权重和超过阈值，则分裂 保证Centroid在分位数轴上的分布密度与数据密度成正比 关键参数： compression（压缩因子）： - 值越大精度越高，占用内存更多 - 默认100，P99误差<0.5% - 200-500用于高精度场景 2. 与排序法对比 维度全量排序法TDigest 内存全部数据固定大小（≈4KB*compression） 时间复杂度O(nlogn)O(n) 精度精确近似（可配置） 支持并行否是（可合并） 支持流式否是 3. 在StarRocks中使用 -- 聚合模型中使用 CREATE TABLE latency_metrics ( api STRING, ts DA...

维度	全量排序法	TDigest
内存	全部数据	固定大小（≈4KB*compression）
时间复杂度	O(nlogn)	O(n)
精度	精确	近似（可配置）
支持并行	否	是（可合并）
支持流式	否	是

TDigest算法与百分位数计算

回答

我还是少年