python（字符串的编码和解码问题）

phoenixwu0229

阅读 1 分钟

1

根本原因：

    
    字符串在Python内部的表示是unicode编码，因此，在做编码转换时，通常需要以unicode
作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编（encode）
成另一种编码。但是，Python 2.x的默认编码格式是ASCII，就是说，在没有指定Python源码编码
格式的情况下，源码中的所有字符都会被默认为ASCII码。也因为这个根本原因，在Python 2.x中
经常会遇到UnicodeDecodeError或者UnicodeEncodeError的异常。

常见的几种编码异常
图片描述

当然，除了上面列出的几种出现异常的情况之外还有很多可能出现异常的例子，这里就不在一一
说明了。

最后分享一个终极原则：

    decode early, unicode everywhere, encode late，即：在输入或者声明字符串的时候，
尽早地使用decode方法将字符串转化成unicode编码格式；然后在程序内使用字符串的时候统一使用
unicode格式进行处理，比如字符串拼接、字符串替换、获取字符串的长度等操作；最后，在输出字符
串的时候（控制台/网页/文件），通过encode方法将字符串转化为你所想要的编码格式，比如utf-8等。

引用WuXianglong的python中文编码问题

阅读 3.6k更新于 2015-12-02

phoenixwu0229

185 声望5 粉丝

« 上一篇

下一篇 »

Swift （与Objective-C的兼容问题）

引用和评论

推荐阅读

iterm2配色方案

phoenixwu0229赞 1阅读 28.4k评论 3

如何减少跨团队交付摩擦？——基于 DevOps 与敏捷的最佳实践

Swift社区赞 1阅读 776

科学计算编程涉及到的技术栈简介

冒泡的马树阅读 3.3k评论 1

使用 chardet 判断文件编码需要注意的坑——过大的文件会导致高耗时

universe_king阅读 3k

Python3 格式化时间（qbit）

qbit赞 1阅读 2.6k

本地使用PaddleOCR进行图片识别获得文字（返回JSON）

TANKING阅读 2.1k

manus 的替代品有哪些？使用LLM大模型技术做手机/网页/浏览器自动化操作技术汇总

universe_king阅读 2k

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。