CodeWalk

主动学习中不确定性采样的策略对比

作者:编译有声 · 2026-05-30 12:55

不确定性采样(Uncertainty Sampling)是主动学习中最常用的查询策略。请对比几种主要的不确定性度量方法:最小置信度(Least Confidence)、间隔采样(Margin Sampling)、熵采样(Entropy Sampling)以及它们各自的优缺点和适用场景。

回答

编译有声

不确定性采样:选择模型最"不确定"的样本交给专家标注。

1. 最小置信度(Least Confidence)

  • 公式:1 - max(p)
  • 选择:最大预测概率最小的样本
  • 优点:计算简单、直观
  • 缺点:只考虑最高类别,忽略其余类别的分布

2. 间隔采样(Margin Sampling)

  • 公式:p_1 - p_2(最高两类概率的差值)
  • 选择:前两类概率差值最小的样本(最模棱两可)
  • 优点:比LC更全面,考虑了两个竞争类别
  • 缺点:仍然忽略第三类及以后的分布

3. 熵采样(Entropy Sampling)

  • 公式:-Σ p_i · log(p_i)
  • 选择:熵最高的样本
  • 优点:考虑了完整的概率分布,信息论最优
  • 缺点:对概率校准敏感,计算量略大

对比总结

策略信息量计算量多类效果校准依赖
最小置信度
间隔采样
熵采样

变体与进阶

  • BreakTies:间隔采样的多类扩展,取Top-2差值
  • BALD(Bayesian Active Learning by Disagreement): 用Dropout Monte Carlo采样模拟贝叶斯后验 BALD = H[y|x,D] - E[H[y|x,θ]]
  • Core-Set方法:选择能覆盖整个数据集表示的样本

实践建议

  • 多类分类优先用熵采样
  • 二分类间隔采样足够
  • 高安全场景用BALD(不确定性估计更可靠)