SMOTE和ADASYN过采样原理

Question

解释SMOTE(Synthetic Minority Over-sampling Technique)的工作原理及其变体ADASYN的区别。。AI 面试题

小字辈 · Accepted Answer

SMOTE (Chawla et al., 2002)： 在少数类样本之间插值生成合成样本，而非简单复制。算法： 对每个少数类样本，计算k近邻 随机选择一个近邻，在线段上采样：x_new = x_i + λ*(x_j - x_i)，λ~U(0,1) 重复至数量平衡 优点：缓解过拟合（对比随机过采样）、无信息损失（对比欠采样）。 缺点：可能生成噪声（类重叠区域）、未考虑多数类分布。 ADASYN (He et al., 2008)： SMOTE的自适应版本，不同之处： 为每个少数类样本计算「困难程度」：近邻中多数类占比越高，越困难 困难样本生成更多合成样本，使决策边界更清晰 对比： | 特性 | SMOTE | ADASYN | |------|-------|--------| | 权重分配 | 均匀 | 自适应(难样本优先) | | 边界处理 | 一般 | 更好 | | 噪声鲁棒 | 较好 | 可能放大噪声 | 实现：imbalanced-learn 库的 SMOTE 和 ADASYN。

SMOTE和ADASYN过采样原理

回答

小字辈