get_dummies,LabelEncoder,OneHotEncoder,label_binarize在编码时的区别？

Question

get_dummies,LabelEncoder,OneHotEncoder,label_binarize在编码时的区别？

incipient

2211015

发布于
2018-05-14

更新于
2018-05-14

用上面四种方法都能实现编码，他们的区别在哪里呢？当然脚本长度不同我已经看出来了。

get_dummies方法

df7 = DataFrame({'key':list('bbacab'),
                'data1':range(6)})

dummies = pd.get_dummies(df7.key,prefix = 'key')

dummies
dummies
0    0    1    0
1    0    1    0
2    1    0    0
3    0    0    1
4    1    0    0
5    0    1    0

LabelEncoder加get_dummies方法

这个方法主要还是用的get_dummies

le = LabelEncoder()
# le.fit(df7['key'])
df7['key2'] = le.fit_transform(df7['key'])

pd.get_dummies(df7.key2)
0    0    1    0
1    0    1    0
2    1    0    0
3    0    0    1
4    1    0    0
5    0    1    0

label_binarize方法

lab = label_binarize(df7['key'],classes = ['a','b','c'])
lab
array([[0, 1, 0],
       [0, 1, 0],
       [1, 0, 0],
       [0, 0, 1],
       [1, 0, 0],
       [0, 1, 0]])

columns = 
df7.join(pd.DataFrame(lab)).rename(columns = {0:'key_a',1:'key_b',2:'key_c'})

0    0    b    1    0    1    0
1    1    b    1    0    1    0
2    2    a    0    1    0    0
3    3    c    2    0    0    1
4    4    a    0    1    0    0
5    5    b    1    0    1    0

OneHotEncoder

onehot_encoder = OneHotEncoder(sparse=False)
integer_encoded = df7['key2'].values.reshape(len(df7['key2']), 1)
onehot_encoded = onehot_encoder.fit_transform(integer_encoded)
onehot_encoded 
# 这里生成的arry数组和label_binarize生成的一样，所以他们的区别在哪里呢？当然整数和小数的区别不算。
array([[ 0.,  1.,  0.],
       [ 0.,  1.,  0.],
       [ 1.,  0.,  0.],
       [ 0.,  0.,  1.],
       [ 1.,  0.,  0.],
       [ 0.,  1.,  0.]])

pd.DataFrame(onehot_encoded)
# 然后再用join方法即可
0    0.0    1.0    0.0
1    0.0    1.0    0.0
2    1.0    0.0    0.0
3    0.0    0.0    1.0
4    1.0    0.0    0.0
5    0.0    1.0    0.0

numpy pandas jupyter-notebook data-analysis

python

阅读 3.3k

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

get_dummies,LabelEncoder,OneHotEncoder,label_binarize在编码时的区别？

get_dummies方法

LabelEncoder加get_dummies方法

label_binarize方法

OneHotEncoder

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

请问numpy如何简化以下代码？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？