Scikit-learn Pipeline与ColumnTransformer构建ML工作流

Question

请说明sklearn中Pipeline和ColumnTransformer的用法和优势。如何在一个pipeline中混合处理数值列和类别列（数值标准化 + 类别独热编码）？解释make_pipeline()与Pipeline()的区别，以及如何在Pipeline中使用memory参数实现缓存加速。。Python 面试...

我是大山 · Accepted Answer

Pipeline：链式组合多个步骤，确保交叉验证时不泄漏数据。 from sklearn.pipeline import Pipeline, make_pipeline from sklearn.preprocessing import StandardScaler, OneHotEncoder from sklearn.compose import ColumnTransformer from sklearn.ensemble import RandomForestClassifier # make_pipeline自动命名步骤 pipe = make_pipeline(StandardScaler(), RandomForestClassifier()) # Pipeline显式命名 pipe = Pipeline([('scaler', StandardScaler()), ('clf', RandomForestClassifier())]) ColumnTransformer：不同列不同预处理： preprocessor = ColumnTransformer( trans...

Scikit-learn Pipeline与ColumnTransformer构建ML工作流

回答

我是大山