Random Forest中随机性体现在哪两个方面？

Question

Random Forest作为Bagging的代表算法，其随机性体现在哪些方面？请解释这些随机化策略如何帮助提高模型的泛化能力。。AI 面试题

苦行僧 · Accepted Answer

Random Forest的随机性体现在两个层面： 1. 样本随机性（行采样） 对原始训练集进行Bootstrap有放回抽样，每棵树使用约63.2%的不同样本 未被抽到的样本（OOB样本）用于内部评估，无需额外验证集 2. 特征随机性（列采样） 每个节点分裂时，从全部m个特征中随机选择k个候选特征（通常k=√m或log₂(m)+1） 在k个特征中寻找最优分裂，而非全局最优 泛化能力提升原理： 两种随机性使树之间的相关性降低，根据集成学习理论，基学习器差异越大，集成后的方差降低效果越好 相比原始Bagging，RF通过特征随机化进一步解耦各棵树，在保持低偏差的同时大幅降低方差 对高维数据尤其有效，能处理数千维特征

Random Forest中随机性体现在哪两个方面？

回答

苦行僧