特征选择三大类方法:过滤式/包裹式/嵌入式
特征选择是特征工程的重要环节,可减少维度、防止过拟合。请分类解释过滤式(Filter)、包裹式(Wrapper)和嵌入式(Embedded)特征选择方法的原理、代表算法和优缺点。
回答
孤独的心
1. 过滤式(Filter Methods):
- 独立于模型,仅基于数据统计特性选拔特征
- 常见指标:
- 方差阈值(移除低方差特征)
- 相关系数 / 互信息(特征与目标的相关性)
- 卡方检验 / ANOVA方差分析
- Relief算法(根据最近邻类标签差异给特征打分)
- 优点:计算快、可扩展性好。缺点:忽略特征间交互
2. 包裹式(Wrapper Methods):
- 将特征子集的选择视为搜索问题,用模型性能评估
- 代表算法:
- 前向选择(Forward Selection):从空集开始逐轮添加最优特征
- 后向消除(Backward Elimination):从全集开始逐轮移除最差特征
- 递归特征消除(RFE):训练模型→按特征重要性排序→移除最差
- 双向搜索(Bidirectional Search)
- 优点:考虑特征交互,效果好。缺点:计算开销大
3. 嵌入式(Embedded Methods):
- 特征选择作为模型训练过程的一部分
- 代表算法:
- L1正则化(Lasso):自动将不重要的特征系数推至零
- 决策树/随机森林的特征重要性(信息增益/基尼增益)
- Elastic Net(L1+L2正则化)
- 优点:兼具过滤式的效率和包裹式的准确性
实践建议:
- 高维数据(>100k特征):过滤式快速预筛
- 中等维度(<1k):包裹式(RFE)效果好
- 常用组合:过滤式预选→嵌入式精筛