新手上路，请多包涵

对于多个变量，即使处理缺失值，我也面临这个错误。例如：

 le = preprocessing.LabelEncoder()
categorical = list(df.select_dtypes(include=['object']).columns.values)
for cat in categorical:
    print(cat)
    df[cat].fillna('UNK', inplace=True)
    df[cat] = le.fit_transform(df[cat])
#     print(le.classes_)
#     print(le.transform(le.classes_))

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-24-424a0952f9d0> in <module>()
      4     print(cat)
      5     df[cat].fillna('UNK', inplace=True)
----> 6     df[cat] = le.fit_transform(df[cat].fillna('UNK'))
      7 #     print(le.classes_)
      8 #     print(le.transform(le.classes_))

C:\Users\paula.ceccon.ribeiro\AppData\Local\Continuum\Anaconda3\lib\site-packages\sklearn\preprocessing\label.py in fit_transform(self, y)
    129         y = column_or_1d(y, warn=True)
    130         _check_numpy_unicode_bug(y)
--> 131         self.classes_, y = np.unique(y, return_inverse=True)
    132         return y
    133

C:\Users\paula.ceccon.ribeiro\AppData\Local\Continuum\Anaconda3\lib\site-packages\numpy\lib\arraysetops.py in unique(ar, return_index, return_inverse, return_counts)
    209
    210     if optional_indices:
--> 211         perm = ar.argsort(kind='mergesort' if return_index else 'quicksort')
    212         aux = ar[perm]
    213     else:

TypeError: '>' not supported between instances of 'float' and 'str'

检查导致错误结果的变量：

 df['CRM do Médico'].isnull().sum()
0

除了 nan 值，还有什么可能导致此错误？

原文由 pceccon 发布，翻译遵循 CC BY-SA 4.0 许可协议

python pandas scikit-learn

阅读 533

2 个回答

得票最新

社区维基

发布于
2022-12-29

✓ 已被采纳

这是由于系列 df[cat] 包含具有不同数据类型的元素，例如（字符串和/或浮点数）。这可能是由于读取数据的方式所致，即数字被读取为浮点数，文本被读取为字符串，或者数据类型为浮点数并在 fillna 操作后发生更改。

换一种说法

pandas 数据类型 ‘Object’ 表示混合类型而不是 str 类型

所以使用以下行：

 df[cat] = le.fit_transform(df[cat].astype(str))

应该帮助

原文由 sgDysregulation 发布，翻译遵循 CC BY-SA 4.0 许可协议

社区维基

发布于
2022-12-29

由于字符串数据类型具有可变长度，因此默认存储为对象类型。我也在处理缺失值后遇到了这个问题。在我的情况下，在标签编码工作之前将所有这些列转换为类型“类别”。

 df[cat]=df[cat].astype('category')

然后检查 df.dtypes 并进行标签编码。

原文由 Rutuja 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

LabelEncoder: TypeError: '>' 在 'float' 和 'str' 的实例之间不支持

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译

LabelEncoder: TypeError: '>' 在 'float' 和 'str' 的实例之间不支持

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。 请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？