CodeWalk

A/B实验设计与统计原理

作者:我还是少年 · 2026-05-30 12:55

解释A/B实验在机器学习评估中的设计原则、统计显著性检验和常见陷阱。

回答

我还是少年

A/B实验(也称在线对照实验)是评估模型/策略效果的黄金标准。

设计原则

  1. 随机分配:用户/请求随机分到对照组(A)和实验组(B)
  2. 样本量计算n = (Z_α/2 + Z_β)² · 2σ² / δ² 其中δ为最小可检测效果(MDE),α=0.05(显著性),β=0.2(功效80%)
  3. 运行时长:至少覆盖一个完整业务周期(避开节假日效应)

统计检验

  • 二值指标(点击率):Z检验或卡方检验
  • 连续指标(时长):t检验或Mann-Whitney U检验
  • 多重比较修正:Bonferroni、Benjamini-Hochberg (FDR控制)

常见陷阱(AA测试)

  1. 多重比较:看太多指标容易出假阳性
  2. 数据窥探(Peeking):提前停止可能导致结果不可靠(需用序贯检验)
  3. 网络效应/SUTVA违背:社交媒体实验中用户之间相互影响
  4. SRM (Sample Ratio Mismatch):分流比例偏离预期,需检查日志

实践建议

  • 先跑AA测试(两组都使用当前模型)验证系统无偏
  • 使用Bonferroni修正控制I类错误
  • 长期运行稳定后再下结论