DAU（日活跃用户）的精确与近似统计方法对比

Question

在大数据场景下统计日活跃用户（DAU），请对比精确去重（Count Distinct）和近似去重（HyperLogLog/BitMap）的实现方法、性能差异和误差控制。给出一个Flink SQL计算实时DAU的完整示例（使用HyperLogLog），以及一个Spark SQL计算离线T+1 DAU的精确方案。讨论如何...

屠龙少年 · Accepted Answer

DAU统计方法对比： 1. 精确去重（Count Distinct）： -- Spark SQL T+1精确DAU SELECT date, COUNT(DISTINCT user_id) AS dau FROM dwd.event_logs WHERE dt = '2025-05-25' AND event = 'app_start' GROUP BY date; 特点：100%准确，但需要大量Shuffle和内存 性能：大表（10亿+）可能OOM 优化：使用approx_count_distinct或先去重再计数 2. 近似去重（HyperLogLog）： -- Flink SQL实时DAU（HyperLogLog） SELECT TUMBLE_START(event_time, INTERVAL '1' DAY) AS window_start, COUNT(DISTINCT user_id) AS dau_approx -- Flink自动优化为HyperLogLog FROM events WHERE event_name = 'app_start' GROUP BY TU...

DAU（日活跃用户）的精确与近似统计方法对比

回答

屠龙少年