SMOTE和ADASYN过采样原理
解释SMOTE(Synthetic Minority Over-sampling Technique)的工作原理及其变体ADASYN的区别。
回答
小字辈
SMOTE (Chawla et al., 2002): 在少数类样本之间插值生成合成样本,而非简单复制。算法:
- 对每个少数类样本,计算k近邻
- 随机选择一个近邻,在线段上采样:
x_new = x_i + λ*(x_j - x_i),λ~U(0,1) - 重复至数量平衡
优点:缓解过拟合(对比随机过采样)、无信息损失(对比欠采样)。 缺点:可能生成噪声(类重叠区域)、未考虑多数类分布。
ADASYN (He et al., 2008): SMOTE的自适应版本,不同之处:
- 为每个少数类样本计算「困难程度」:近邻中多数类占比越高,越困难
- 困难样本生成更多合成样本,使决策边界更清晰
对比: | 特性 | SMOTE | ADASYN | |------|-------|--------| | 权重分配 | 均匀 | 自适应(难样本优先) | | 边界处理 | 一般 | 更好 | | 噪声鲁棒 | 较好 | 可能放大噪声 |
实现:imbalanced-learn 库的 SMOTE 和 ADASYN。