StratifiedKFold与普通KFold有何不同?
请比较**StratifiedKFold(分层K折)**与普通KFold的区别,以及在什么场景下必须使用分层交叉验证?
回答
Yahuda
普通KFold随机划分数据为K份,可能导致类别分布不均衡——某些fold中某一类样本比例严重偏离整体分布。StratifiedKFold确保每个fold中各类别的比例与原始数据集一致,即保留下采样的分层信息。必须使用场景:(1)分类任务中类别不平衡(如正样本仅占5%)。(2)小数据集——随机划分的不均衡影响更大。(3)多分类中各类别样本数差异大。分层交叉验证能减少评估偏差,使每个fold都代表整体