我有一个比较大的df
date type
2024-01-01 1
2024-01-01 2
2024-01-01 1
2024-01-02 3
2024-01-02 2
2024-01-02 3
2024-01-02 1
2024-01-02 1
2024-01-03 1
2024-01-03 4
2024-01-03 2
2024-01-03 5
...
如何恰当地完成如下的统计转换
date type1 type2 type3 type4 type5
2024-01-01 2 1 0 0 0
2024-01-02 2 1 2 0 0
2024-01-03 1 0 1 1 1
...
谢谢高人指定。
在pandas库中,
get_dummies()
函数的作用是将分类变量转换为虚拟/指示变量,也称为one-hot编码。这个函数为每个唯一的类别值创建一个新的布尔列(只包含0和1),其中1表示原始数据中该类别的存在,0表示不存在。这里面先使用get_dummies()
函数将你原先的数据生成一个虚拟列。然后再通过
groupby
和sum
函数再分别分组和求和,求和可以用sum
也可以用aggregate('sum')
,然后就有了下面的结果。输出结果: