CodeWalk

特征选择三大类方法:过滤式/包裹式/嵌入式

作者:孤独的心 · 2026-05-30 12:55

特征选择是特征工程的重要环节,可减少维度、防止过拟合。请分类解释过滤式(Filter)、包裹式(Wrapper)和嵌入式(Embedded)特征选择方法的原理、代表算法和优缺点。

回答

孤独的心

1. 过滤式(Filter Methods)

  • 独立于模型,仅基于数据统计特性选拔特征
  • 常见指标
    • 方差阈值(移除低方差特征)
    • 相关系数 / 互信息(特征与目标的相关性)
    • 卡方检验 / ANOVA方差分析
    • Relief算法(根据最近邻类标签差异给特征打分)
  • 优点:计算快、可扩展性好。缺点:忽略特征间交互

2. 包裹式(Wrapper Methods)

  • 将特征子集的选择视为搜索问题,用模型性能评估
  • 代表算法
    • 前向选择(Forward Selection):从空集开始逐轮添加最优特征
    • 后向消除(Backward Elimination):从全集开始逐轮移除最差特征
    • 递归特征消除(RFE):训练模型→按特征重要性排序→移除最差
    • 双向搜索(Bidirectional Search)
  • 优点:考虑特征交互,效果好。缺点:计算开销大

3. 嵌入式(Embedded Methods)

  • 特征选择作为模型训练过程的一部分
  • 代表算法
    • L1正则化(Lasso):自动将不重要的特征系数推至零
    • 决策树/随机森林的特征重要性(信息增益/基尼增益)
    • Elastic Net(L1+L2正则化)
  • 优点:兼具过滤式的效率和包裹式的准确性

实践建议

  • 高维数据(>100k特征):过滤式快速预筛
  • 中等维度(<1k):包裹式(RFE)效果好
  • 常用组合:过滤式预选→嵌入式精筛