我有一组数据框,其中一列包含一个分类变量。我想将它转换为几个虚拟变量,在这种情况下我通常会使用 get_dummies
。
发生的事情是 get_dummies
查看每个数据框中可用的数据,找出有多少类别,从而创建适当数量的虚拟变量。然而,在我现在正在处理的问题中,我实际上提前知道可能的类别是什么。但是当单独查看每个数据框时,并非所有类别都一定会出现。
我的问题是:有没有办法将类别的名称传递给 get_dummies
(或等效函数),这样,对于没有出现在给定数据框中的类别,它只是创建一列 0?
可以做到这一点的东西:
categories = ['a', 'b', 'c']
cat
1 a
2 b
3 a
变成这样:
cat_a cat_b cat_c
1 1 0 0
2 0 1 0
3 1 0 0
原文由 Berne 发布,翻译遵循 CC BY-SA 4.0 许可协议
使用转置和重建索引