python写utf-8文件的问题

import codecs

txt = u"\u5e10\u53f7\u4e0d\u5b58\u5728"
file=codecs.open("test","w","utf-8")
file.write(txt)
file.close()

这个可以正确写入
但当string只为ascii字符时,比如

txt = u"qwer"

这时生成的file仍旧为ascii格式
需要怎么做才能生成utf-8格式的文件?
谢谢

阅读 37.9k
6 个回答
import codecs
txt = u"qwer"
file=codecs.open("test","w","utf-8-sig")
file.write(txt)
file.close()

utf-8编码本身是ascii兼容的,所以只有ascii字符的时候,“是否utf-8”编码是没有意义的。

如果要求文件可以被明确识别为utf8编码,则需要在文件头写入几个特殊字符(即UTF-8的BOM),详情参见cute同学的回答。

p.s. 由于文件开头多了几个字符,这时候可能会导致某些应用无法兼容。

我一般都手动编码成str之后再写入的
s = s.encode("utf-8")

bom是微软自己发明的东西~其他系统都不带这个。。。

写入和读出的时候都用encode和decode处理一下就好

文件开头加上:

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

import codecs

txt = u"qwer"
file=codecs.open("test","w","utf-8")
file.write(txt)
file.close()

但当string只为ascii字符时,比如
txt = u"qwer"
这时生成的file仍旧为ascii格式
需要怎么做才能生成utf-8格式的文件?

答:UTF-8编码向下兼容,即 包含了ASCII编码

-》 所以当文件内容只有ASCII字符串时,是ASCII编码,也是UTF-8编码
-》你用Python等代码,去用UTF-8编码去打开时,也不会报错的
-》如果你文件内容包含非ASCII字符,比如中文字符时,指定了UTF-8编码时,保存出来的就显示UTF-8编码了

相关

UTF-8 with BOM

UTF-8编码相关的,还有个叫做:UTF-8 with BOM=带BOM的UTF-8

UTF-8和UTF-8 with BOM`区别

UTF-8 with BOMUTF-8文件最开始多了个字符\ufeff,也叫BOM头

一般来说,用途最广的,最通用,兼容性最好的是:UTF-8

-》不需要,也不太应该去保存为UTF-8 with BOM

那什么时候考虑保存为UTF-8 with BOM?

比如我此处遇到的特殊情况:

Mac中,excel去打开UTF-8的csv时,如果里面有中文,就会显示乱码

想要避免乱码,就应该:把csv从UTF-8改为UTF-8 with BOM

这样Mac中Excel再去打开UTF-8 with BOM的csv,就不会乱码了。

字符编码相关教程

可以参考我写的:

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
1 篇内容引用
推荐问题
宣传栏