主动学习中不确定性采样的策略对比

Question

不确定性采样（Uncertainty Sampling）是主动学习中最常用的查询策略。请对比几种主要的不确定性度量方法：最小置信度（Least Confidence）、间隔采样（Margin Sampling）、熵采样（Entropy Sampling）以及它们各自的优缺点和适用场景。。AI 面试题

编译有声 · Accepted Answer

不确定性采样：选择模型最"不确定"的样本交给专家标注。 1. 最小置信度（Least Confidence）： 公式：1 - max(p) 选择：最大预测概率最小的样本 优点：计算简单、直观 缺点：只考虑最高类别，忽略其余类别的分布 2. 间隔采样（Margin Sampling）： 公式：p_1 - p_2（最高两类概率的差值） 选择：前两类概率差值最小的样本（最模棱两可） 优点：比LC更全面，考虑了两个竞争类别 缺点：仍然忽略第三类及以后的分布 3. 熵采样（Entropy Sampling）： 公式：-Σ p_i · log(p_i) 选择：熵最高的样本 优点：考虑了完整的概率分布，信息论最优 缺点：对概率校准敏感，计算量略大 对比总结： 策略信息量计算量多类效果校准依赖 最小置信度低低差中 间隔采样中低中中 熵采样高中好高 变体与进阶： BreakTies：间隔采样的多类扩展，取Top-2差值 BALD（Bayesian Active Learning by Disagreement）： 用Dropout Monte Carlo采样模拟贝叶斯后验 BALD = H[y|x,D...

策略	信息量	计算量	多类效果	校准依赖
最小置信度	低	低	差	中
间隔采样	中	低	中	中
熵采样	高	中	好	高

主动学习中不确定性采样的策略对比

回答

编译有声