python读写文件夹中编码方式各异的文件

发布于
2018-01-18

现有需求如下：
遍历一个文件夹中的所有文件，读取文件内容，对文件内容进行处理后，重新写入文件中。
该文件夹下的文件编码方式不统一，例如下图所示：

图中，两个文件的编码，一个是ASCII，另一个是ISO-8859,且换行符还是CRLF风格的（该文件中包含了中文注释）

我尝试直接用utf-8编码方式读取文件：with open(file, encoding='utf-8') as f,当读到那个272的file时，会报错:UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbc in position 0: invalid start byte

也试过这样：with codecs.open(file, encoding='utf-8') as f，但是仍然会报错。

请问有何好的处理办法？

python python3.x 编码 encoding 文件

阅读 6k

2 个回答

慕辰先生

二进制读取字节，然后根据不同的编码再处理

import codecs
with codecs.open('Client.java','rb') as f:
    print f.read().decode('utf8')
    # print f.read().decode('gbk')
    # print f.read().decode('ASCII')

zuch

4.4k1518

发布于
2018-01-18

全部不加编码地读进来，然后判断编码，并转成 utf-8

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

python读写文件夹中编码方式各异的文件

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？