用户留存（Retention）计算的SQL实现与多维分析

Question

请给出一个标准的新增用户次日/7日/30日留存率计算的Spark SQL实现。包括：新用户定义（首次启动）、留存回访定义、以及多维留存（按渠道/版本/地区分组）。同时讨论大表优化：BitMap留存、ClickHouse留存函数（retention）、以及Flink实时留存计算方案。。大数据 面试题。腾讯 面试题

孤独的心 · Accepted Answer

用户留存SQL实现： 1. 核心逻辑： 新用户：第一次启动app 留存用户：N天后回访的用户 留存率 = 第N天回访的用户数 / 第0天新增用户数 2. Spark SQL留存计算： -- Step 1: 找出新用户（首次启动日期） WITH new_users AS ( SELECT user_id, MIN(dt) AS install_date FROM events WHERE event_name = 'app_start' GROUP BY user_id ), -- Step 2: 计算回访情况 retention_base AS ( SELECT n.install_date, n.user_id, -- 是否有后续回访 MAX(CASE WHEN e.dt = DATE_ADD(n.install_date, 1) THEN 1 ELSE 0 END) AS day_1_retention, MAX(CASE WHEN e.dt = DATE_ADD(n.install_date, 7) THEN 1 ELSE 0 END) AS day_7_retention, ...

用户留存（Retention）计算的SQL实现与多维分析

回答

孤独的心