新手上路，请多包涵

这是我的第一个机器学习项目，也是我第一次使用 ColumnTransformer。我的目标是执行两个步骤的数据预处理，并为每个步骤使用 ColumnTransformer。

在第一步中，我想将数据框中的缺失值替换为某些特征的字符串“missing_value”，以及其余特征的最常见值。因此，我使用 ColumnTransformer 将这两个操作结合起来，并将数据框的相应列传递给它。

在第二步中，我想使用刚刚预处理的数据并根据功能应用 OrdinalEncoder 或 OneHotEncoder。为此，我再次使用 ColumnTransformer。

然后我将这两个步骤组合成一个管道。

我正在使用 Kaggle Houses Price 数据集，我有 scikit-learn 版本 0.20，这是我的代码的简化版本：

 cat_columns_fill_miss = ['PoolQC', 'Alley']
cat_columns_fill_freq = ['Street', 'MSZoning', 'LandContour']
cat_columns_ord = ['Street', 'Alley', 'PoolQC']
ord_mapping = [['Pave', 'Grvl'],                          # Street
               ['missing_value', 'Pave', 'Grvl'],         # Alley
               ['missing_value', 'Fa', 'TA', 'Gd', 'Ex']  # PoolQC
]
cat_columns_onehot = ['MSZoning', 'LandContour']

imputer_cat_pipeline = ColumnTransformer([
        ('imp_miss', SimpleImputer(strategy='constant'), cat_columns_fill_miss),  # fill_value='missing_value' by default
        ('imp_freq', SimpleImputer(strategy='most_frequent'), cat_columns_fill_freq),
])

encoder_cat_pipeline = ColumnTransformer([
        ('ordinal', OrdinalEncoder(categories=ord_mapping), cat_columns_ord),
        ('pass_ord', OneHotEncoder(), cat_columns_onehot),
])

cat_pipeline = Pipeline([
        ('imp_cat', imputer_cat_pipeline),
        ('cat_encoder', encoder_cat_pipeline),
])

不幸的是，当我将它应用于 housing_cat 时，我的数据框的子集仅包含分类特征，

 cat_pipeline.fit_transform(housing_cat)

我收到错误：

AttributeError: ‘numpy.ndarray’ 对象没有属性 ‘columns’

在处理上述异常的过程中，又出现了一个异常：

…

ValueError：仅 pandas DataFrames 支持使用字符串指定列

我已经尝试过这个简化的管道并且它工作正常：

 new_cat_pipeline = Pipeline([
        ('imp_cat', imputer_cat_pipeline),
        ('onehot', OneHotEncoder()),
])

但是，如果我尝试：

 enc_one = ColumnTransformer([
        ('onehot', OneHotEncoder(), cat_columns_onehot),
        ('pass_ord', 'passthrough', cat_columns_ord)
])

new_cat_pipeline = Pipeline([
        ('imp_cat', imputer_cat_pipeline),
        ('onehot_encoder', enc_one),
])

我开始遇到同样的错误。

然后我怀疑这个错误与第二步中使用ColumnTransformer有关，但我实际上不明白它来自哪里。我在第二步中识别列的方式与第一步中的相同，所以我仍然不清楚为什么只在第二步中我得到属性错误…

原文由 Giulia 发布，翻译遵循 CC BY-SA 4.0 许可协议

python pandas scikit-learn pipeline transformer-model

阅读 695

2 个回答

得票最新

社区维基

发布于
2023-01-10

✓ 已被采纳

ColumnTransformer 返回 numpy.array ，因此它不能具有列属性（如您的错误所示）。

如果我可以建议不同的解决方案，请使用 pandas 来完成您的两项任务，这样会更容易。

第 1 步 - 替换缺失值

要用 missing_value 字符串替换列子集中的缺失值，请使用：

 dataframe[["PoolQC", "Alley"]].fillna("missing_value", inplace=True)

对于其余部分（用每列的平均值进行估算），这将完美地工作：

 dataframe[["Street", "MSZoning", "LandContour"]].fillna(
    dataframe[["Street", "MSZoning", "LandContour"]].mean(), inplace=True
)

第 2 步 - 一个热编码和分类变量

pandas 提供 get_dummies ，返回 pandas Dataframe，不像 ColumnTransfomer ：，代码为

encoded = pd.get_dummies(dataframe[['MSZoning', 'LandContour']], drop_first=True)
pd.dropna(['MSZoning', 'LandContour'], axis=columns, inplace=True)
dataframe = dataframe.join(encoded)

对于序数变量及其编码，我建议您查看这个 SO 答案（不幸的是，在这种情况下需要一些手动映射）。

如果你仍然想使用变压器

使用 values 属性从数据框中获取 np.array --- 属性，通过管道传递它并从数组中重新创建列和索引，如下所示：

 pd.DataFrame(data=your_array, index=np.arange(len(your_array)), columns=["A", "B"])

不过，这种做法有一个警告；您不会知道自定义创建的单热编码列的名称（管道不会为您执行此操作）。

此外，您可以从 sklearn 的转换对象中获取列的名称（例如使用 categories_ 属性），但我认为这会破坏管道（如果我错了请纠正我）。

原文由 Szymon Maszke 发布，翻译遵循 CC BY-SA 4.0 许可协议

社区维基

发布于
2023-01-10

选项 #2

使用 make_pipeline 函数

（有同样的错误，找到这个答案，而不是找到这个： Introducing the ColumnTransformer ）

 from sklearn.compose import make_column_transformer
from sklearn.pipeline import make_pipeline

 cat_columns_fill_miss = ['PoolQC', 'Alley']
cat_columns_fill_freq = ['Street', 'MSZoning', 'LandContour']
cat_columns_ord = ['Street', 'Alley', 'PoolQC']
ord_mapping = [['Pave', 'Grvl'],                          # Street
               ['missing_value', 'Pave', 'Grvl'],         # Alley
               ['missing_value', 'Fa', 'TA', 'Gd', 'Ex']  # PoolQC
               ]
cat_columns_onehot = ['MSZoning', 'LandContour']


imputer_cat_pipeline = make_column_transformer(
    (make_pipeline(SimpleImputer(strategy='constant'), cat_columns_fill_miss),
    (make_pipeline(SimpleImputer(strategy='most_frequent'), cat_columns_fill_freq),
)

encoder_cat_pipeline = make_column_transformer(
    (OrdinalEncoder(categories=ord_mapping), cat_columns_ord),
    (OneHotEncoder(), cat_columns_onehot),
)

cat_pipeline = Pipeline([
    ('imp_cat', imputer_cat_pipeline),
    ('cat_encoder', encoder_cat_pipeline),
])

在我自己的管道中，我在列空间中没有重叠的预处理。所以我不确定转换和“外部流水线”是如何工作的。

但是，重要的部分是在 SimpleImputer 周围使用 make_pipeline 以在管道中正确使用它：

 imputer_cat_pipeline = make_column_transformer(
    (make_pipeline(SimpleImputer(strategy='constant'), cat_columns_fill_miss),
)

原文由 Jonas 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

将 ColumnTransformer 用于管道时出现 AttributeError

第 1 步 - 替换缺失值

第 2 步 - 一个热编码和分类变量

如果你仍然想使用变压器

选项 #2

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译

将 ColumnTransformer 用于管道时出现 AttributeError

第 1 步 - 替换缺失值

第 2 步 - 一个热编码和分类变量

如果你仍然想使用变压器

选项 #2

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。 请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？