我想将一个 csv 文件导入到 pandas 数据框中。有一个 ID 列，它只包含数字，但并非每一行都有一个 ID。 ID xyz 0 12345 4.56 1 45.60 2 54231 987.00 我想将此列作为字符串读取，但即使我用 df=pd.read_csv(filename,dtype={'ID': str}) 我得到 ID xyz 0 '12345.0' 4.56 1 NaN 45.60 2 '54231.0' 987.00 有没有一种简单的方法可以将 ID 作为不带小数点的字符串获取，例如 '12345' 而无需在导入表后编辑字符串？原文由 Georg B 发布，翻译遵循 CC BY-SA 4.0 许可协议

Pandas Dataframe 将列解释为 float 而不是 String

2 个回答

发布于
2022-11-17

✓ 已被采纳

一个解决方案可能是这样的，但是在你导入 df 之后：

 df = pd.read_csv(filename)
df['ID'] = df['ID'].astype(int).astype(str)

或者因为有 NaN 与：

 df['ID'] = df['ID'].apply(lambda x: x if pd.isnull(x) else str(int(x)))

原文由 Joe 发布，翻译遵循 CC BY-SA 4.0 许可协议

社区维基

1

发布于
2022-11-17

如果缺失值不在数字列中的可能解决方案 - 广告参数 keep_default_na=False 不将空值转换为字符串，但它不会在所有数据中转换为 NaN，并不总是在第一列中，另请检查文档：

 import pandas as pd

temp=u"""ID;xyz
0;12345;4.56
1;;45.60
2;54231;987.00"""
#after testing replace 'pd.compat.StringIO(temp)' to 'filename.csv'
df = pd.read_csv(pd.compat.StringIO(temp), sep=";", dtype={'ID': str}, keep_default_na=False)
    print (df)
      ID     xyz
0  12345    4.56
1          45.60
2  54231  987.00

编辑：

对我来说，在 pandas 0.23.4 中完美地工作你的解决方案，所以这意味着在较低的 pandas 版本中存在错误：

 import pandas as pd

temp=u"""ID;xyz
0;12345;4.56
1;;45.60
2;54231;987.00"""
#after testing replace 'pd.compat.StringIO(temp)' to 'filename.csv'
df = pd.read_csv(pd.compat.StringIO(temp), sep=";", dtype={'ID': str})
print (df)
      ID     xyz
0  12345    4.56
1    NaN   45.60
2  54231  987.00

原文由 jezrael 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

Pandas Dataframe 将列解释为 float 而不是 String

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？

Stack Overflow 翻译