交叉验证中数据泄露问题如何避免?
在使用交叉验证时,**数据泄露(Data Leakage)**是常见陷阱。请列举几种避免数据泄露的关键做法。
回答
孤独的心
数据泄露指验证集信息不当流入训练过程,导致评估过于乐观。避免方法:(1)特征缩放(标准化/归一化)必须在每个fold内部独立计算均值和方差,不可用全局统计量。(2)特征选择必须只在训练集上做,不能用全数据集做特征筛选后再划分。(3)数据增强不可使用验证集信息。(4)时间序列必须使用TimeSeriesSplit,按时间顺序划分,不可随机打乱。(5)缺失值填充的统计量(如均值)也需在每个fold内计