一堆csv文件中有UTF-8编码的，也有GBK编码的，怎么自动判断用pandas正确读取？

神圣之风

发布于
2021-09-30

pd.read_csv()需要指定encoding的方式来读取，这个怎么判断呢？

阅读 4.3k

2 个回答

然后去远足

发布于
2021-09-30

可以先用 chardet 模块检测文件编码。

发布于
2021-09-30

因为chardet检测结果是带概率的（提供最高概率结果），所以不排除处理中还是有问题，我个人的建议是集中处理标识非utf-8文件，然后人工介入都转换为utf-8后处理。

如果涉及可能新产生，因为产生csv系统编码不会随意改变，可以针对性的分别设置前置处理过程来预处理转换，以保证到pandas处理时的编码是统一的（建议为utf-8）

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题