A/B实验设计与统计原理

Question

解释A/B实验在机器学习评估中的设计原则、统计显著性检验和常见陷阱。。AI 面试题

我还是少年 · Accepted Answer

A/B实验（也称在线对照实验）是评估模型/策略效果的黄金标准。 设计原则： 随机分配：用户/请求随机分到对照组(A)和实验组(B) 样本量计算： n = (Z_α/2 + Z_β)² · 2σ² / δ² 其中δ为最小可检测效果(MDE)，α=0.05(显著性)，β=0.2(功效80%) 运行时长：至少覆盖一个完整业务周期（避开节假日效应） 统计检验： 二值指标（点击率）：Z检验或卡方检验 连续指标（时长）：t检验或Mann-Whitney U检验 多重比较修正：Bonferroni、Benjamini-Hochberg (FDR控制) 常见陷阱(AA测试)： 多重比较：看太多指标容易出假阳性 数据窥探(Peeking)：提前停止可能导致结果不可靠（需用序贯检验） 网络效应/SUTVA违背：社交媒体实验中用户之间相互影响 SRM (Sample Ratio Mismatch)：分流比例偏离预期，需检查日志 实践建议： 先跑AA测试（两组都使用当前模型）验证系统无偏 使用Bonferroni修正控制I类错误 长期运行稳定后再下结论

A/B实验设计与统计原理

回答

我还是少年