Random Forest中随机性体现在哪两个方面?
Random Forest作为Bagging的代表算法,其随机性体现在哪些方面?请解释这些随机化策略如何帮助提高模型的泛化能力。
回答
苦行僧
Random Forest的随机性体现在两个层面:
1. 样本随机性(行采样)
- 对原始训练集进行Bootstrap有放回抽样,每棵树使用约63.2%的不同样本
- 未被抽到的样本(OOB样本)用于内部评估,无需额外验证集
2. 特征随机性(列采样)
- 每个节点分裂时,从全部m个特征中随机选择k个候选特征(通常k=√m或log₂(m)+1)
- 在k个特征中寻找最优分裂,而非全局最优
泛化能力提升原理:
- 两种随机性使树之间的相关性降低,根据集成学习理论,基学习器差异越大,集成后的方差降低效果越好
- 相比原始Bagging,RF通过特征随机化进一步解耦各棵树,在保持低偏差的同时大幅降低方差
- 对高维数据尤其有效,能处理数千维特征