主动学习中不确定性采样的策略对比
不确定性采样(Uncertainty Sampling)是主动学习中最常用的查询策略。请对比几种主要的不确定性度量方法:最小置信度(Least Confidence)、间隔采样(Margin Sampling)、熵采样(Entropy Sampling)以及它们各自的优缺点和适用场景。
回答
编译有声
不确定性采样:选择模型最"不确定"的样本交给专家标注。
1. 最小置信度(Least Confidence):
- 公式:
1 - max(p) - 选择:最大预测概率最小的样本
- 优点:计算简单、直观
- 缺点:只考虑最高类别,忽略其余类别的分布
2. 间隔采样(Margin Sampling):
- 公式:
p_1 - p_2(最高两类概率的差值) - 选择:前两类概率差值最小的样本(最模棱两可)
- 优点:比LC更全面,考虑了两个竞争类别
- 缺点:仍然忽略第三类及以后的分布
3. 熵采样(Entropy Sampling):
- 公式:
-Σ p_i · log(p_i) - 选择:熵最高的样本
- 优点:考虑了完整的概率分布,信息论最优
- 缺点:对概率校准敏感,计算量略大
对比总结:
| 策略 | 信息量 | 计算量 | 多类效果 | 校准依赖 |
|---|---|---|---|---|
| 最小置信度 | 低 | 低 | 差 | 中 |
| 间隔采样 | 中 | 低 | 中 | 中 |
| 熵采样 | 高 | 中 | 好 | 高 |
变体与进阶:
- BreakTies:间隔采样的多类扩展,取Top-2差值
- BALD(Bayesian Active Learning by Disagreement):
用Dropout Monte Carlo采样模拟贝叶斯后验
BALD = H[y|x,D] - E[H[y|x,θ]] - Core-Set方法:选择能覆盖整个数据集表示的样本
实践建议:
- 多类分类优先用熵采样
- 二分类间隔采样足够
- 高安全场景用BALD(不确定性估计更可靠)