pd.read_csv()需要指定encoding的方式来读取,这个怎么判断呢?
因为chardet
检测结果是带概率的(提供最高概率结果),所以不排除处理中还是有问题,我个人的建议是集中处理标识非utf-8
文件,然后人工介入都转换为utf-8
后处理。
如果涉及可能新产生,因为产生csv系统编码不会随意改变,可以针对性的分别设置前置处理过程来预处理转换,以保证到pandas
处理时的编码是统一的(建议为utf-8
)
2 回答5.2k 阅读✓ 已解决
2 回答1.1k 阅读✓ 已解决
4 回答1.4k 阅读✓ 已解决
3 回答1.3k 阅读✓ 已解决
3 回答1.3k 阅读✓ 已解决
2 回答876 阅读✓ 已解决
1 回答1.8k 阅读✓ 已解决
可以先用
chardet
模块检测文件编码。