A/B实验设计与统计原理
解释A/B实验在机器学习评估中的设计原则、统计显著性检验和常见陷阱。
回答
我还是少年
A/B实验(也称在线对照实验)是评估模型/策略效果的黄金标准。
设计原则:
- 随机分配:用户/请求随机分到对照组(A)和实验组(B)
- 样本量计算:
n = (Z_α/2 + Z_β)² · 2σ² / δ²其中δ为最小可检测效果(MDE),α=0.05(显著性),β=0.2(功效80%) - 运行时长:至少覆盖一个完整业务周期(避开节假日效应)
统计检验:
- 二值指标(点击率):Z检验或卡方检验
- 连续指标(时长):t检验或Mann-Whitney U检验
- 多重比较修正:Bonferroni、Benjamini-Hochberg (FDR控制)
常见陷阱(AA测试):
- 多重比较:看太多指标容易出假阳性
- 数据窥探(Peeking):提前停止可能导致结果不可靠(需用序贯检验)
- 网络效应/SUTVA违背:社交媒体实验中用户之间相互影响
- SRM (Sample Ratio Mismatch):分流比例偏离预期,需检查日志
实践建议:
- 先跑AA测试(两组都使用当前模型)验证系统无偏
- 使用Bonferroni修正控制I类错误
- 长期运行稳定后再下结论