5. 数据集转换
scikit-learn 提供了一个用于转换数据集的库, 它也许会 clean(清理)(请参阅 预处理数据), reduce(减少)(请参阅 无监督降维), expand(扩展)(请参阅 内核近似)或 generate(生成)(请参阅 特征提取) feature representations(特征表示).
像其它预估计一样, 它们由具有 fit
方法的类来表示, 该方法从训练集学习模型参数(例如, 归一化的平均值和标准偏差)以及transform
方法将该转换模型应用于不可见数据. 同时 fit_transform
可以更方便和有效地建模与转换训练数据.
将 Pipeline(管道)和 FeatureUnion(特征联合): 合并的评估器 中 transformers(转换)使用并行的或者串联的方式合并到一起. 成对的矩阵, 类别和核函数 涵盖将特征空间转换为 affinity matrices(亲和矩阵), 而 预测目标 (y) 的转换 考虑在 scikit-learn 中使用目标空间的转换(例如. 标签分类).
- 5.1. Pipeline(管道)和 FeatureUnion(特征联合): 合并的评估器
- 5.2. 特征提取
- 5.3 预处理数据
- 5.4 缺失值插补
- 5.5. 无监督降维
- 5.6. 随机投影
- 5.7. 内核近似
- 5.8. 成对的矩阵, 类别和核函数
- 5.9. 预测目标 (
y
) 的转换