一堆csv文件中有UTF-8编码的,也有GBK编码的,怎么自动判断用pandas正确读取?

pd.read_csv()需要指定encoding的方式来读取,这个怎么判断呢?

阅读 4.3k
2 个回答

可以先用 chardet 模块检测文件编码。

因为chardet检测结果是带概率的(提供最高概率结果),所以不排除处理中还是有问题,我个人的建议是集中处理标识非utf-8文件,然后人工介入都转换为utf-8后处理。

如果涉及可能新产生,因为产生csv系统编码不会随意改变,可以针对性的分别设置前置处理过程来预处理转换,以保证到pandas处理时的编码是统一的(建议为utf-8

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题