sklearn 中 labelEncoder 的工作

Question

新手上路，请多包涵

假设我有以下输入功能：

 hotel_id = [1, 2, 3, 2, 3]

这是具有数值的分类特征。如果我按原样将其提供给模型，模型会将其视为连续变量，即 2 > 1。

如果我申请 sklearn.labelEncoder() 那么我会得到：

 hotel_id = [0, 1, 2, 1, 2]

那么这个编码特征被认为是连续的还是分类的？如果它被视为连续的，那么 labelEncoder() 有什么用。

PS 我知道一种热编码。但是大约有 100 个 hotel_id，所以不想使用它。谢谢

原文由 Neo 发布，翻译遵循 CC BY-SA 4.0 许可协议

python 机器学习 scikit-learn categorical-data

阅读 454

1 个回答

得票最新

社区维基

1

发布于
2023-01-10

LabelEncoder 是一种编码等级的方法。除了您包含的整数示例之外，请考虑以下示例：

 >>> from sklearn.preprocessing import LabelEncoder
>>> le = LabelEncoder()
>>>
>>> train = ["paris", "paris", "tokyo", "amsterdam"]
>>> test = ["tokyo", "tokyo", "paris"]
>>> le.fit(train).transform(test)
array([2, 2, 1]...)

那么， LabelEncoder 允许我们做的是将有序级别分配给分类数据。但是，您注意到的是正确的：即 [2, 2, 1] 被视为数字数据。这是使用 OneHotEncoder 虚拟变量（我知道你说过你不希望使用它）的一个很好的候选者。

请注意， LabelEncoder 必须在单热编码之前使用，因为 OneHotEncoder 无法处理分类数据。因此，它经常被用作单热编码的先驱。

或者，它可以将您的目标编码为可用数组。例如，如果 train 是您的分类目标，您将需要 LabelEncoder 将其用作您的 y 变量。

原文由 TayTay 发布，翻译遵循 CC BY-SA 3.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

Stack Overflow 翻译

子站问答

访问

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题

sklearn 中 labelEncoder 的工作

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？

Stack Overflow 翻译