CodeWalk

SMOTE和ADASYN过采样原理

作者:小字辈 · 2026-05-30 12:55

解释SMOTE(Synthetic Minority Over-sampling Technique)的工作原理及其变体ADASYN的区别。

回答

小字辈

SMOTE (Chawla et al., 2002): 在少数类样本之间插值生成合成样本,而非简单复制。算法:

  1. 对每个少数类样本,计算k近邻
  2. 随机选择一个近邻,在线段上采样:x_new = x_i + λ*(x_j - x_i),λ~U(0,1)
  3. 重复至数量平衡

优点:缓解过拟合(对比随机过采样)、无信息损失(对比欠采样)。 缺点:可能生成噪声(类重叠区域)、未考虑多数类分布。

ADASYN (He et al., 2008): SMOTE的自适应版本,不同之处:

  • 为每个少数类样本计算「困难程度」:近邻中多数类占比越高,越困难
  • 困难样本生成更多合成样本,使决策边界更清晰

对比: | 特性 | SMOTE | ADASYN | |------|-------|--------| | 权重分配 | 均匀 | 自适应(难样本优先) | | 边界处理 | 一般 | 更好 | | 噪声鲁棒 | 较好 | 可能放大噪声 |

实现imbalanced-learn 库的 SMOTEADASYN