python 2 和 3 中的 UTF-8 字符串

以下代码适用于 Python 3：

 people = [u'Nicholas Gyeney', u'Andr\xe9']
writers = ", ".join(people)
print(writers)
print("Writers: {}".format(writers))

并产生以下输出：

 Nicholas Gyeney, André
Writers: Nicholas Gyeney, André

但是，在 Python 2.7 中，我收到以下错误：

 Traceback (most recent call last):
  File "python", line 4, in <module>
UnicodeEncodeError: 'ascii' codec can't encode character u'\xe9'
in position 21: ordinal not in range(128)

我可以通过将 ", ".join(people) 更改为 ", ".join(people).encode('utf-8') 来修复此错误，但如果我这样做，Python 3 中的输出将更改为：

 b'Nicholas Gyeney, Andr\xc3\xa9'
Writers: b'Nicholas Gyeney, Andr\xc3\xa9'

所以我尝试使用以下代码：

 if sys.version_info < (3, 0):
    reload(sys)
    sys.setdefaultencoding('utf-8')

people = [u'Nicholas Gyeney', u'Andr\xe9']
writers = ", ".join(people)
print(writers)
print("Writers: {}".format(writers))

这使得我的代码适用于所有版本的 Python。但我读到不鼓励使用 setdefaultencoding 。

处理此问题的最佳方法是什么？

原文由 B Faley 发布，翻译遵循 CC BY-SA 4.0 许可协议

阅读 835

首先我们假设你想要支持 Python 2.7 和 3.5 版本（2.6 和 3.0 到 3.2 的处理方式有点不同）。

正如您已经阅读的那样， setdefaultencoding 是不鼓励的，在您的情况下实际上不需要。

要编写处理 unicode 文本的跨平台代码，通常只需要在几个地方指定字符串编码：

在你的脚本顶部，shebang 下方 # -*- coding: utf-8 -*- （仅当你的代码中有带有 unicode 文本的字符串文字时）
当您读取输入数据时（例如，从文本文件或数据库中）
当您输出数据时（同样来自文本文件或数据库）
当您在代码中定义字符串文字时

以下是我如何按照这些规则更改您的示例：

 #!/usr/bin/env python
# -*- coding: utf-8 -*-

people = ['Nicholas Gyeney', 'André']
writers = ", ".join(people)
print(writers)
print("Writers: {}".format(writers))

print(type(writers))
print(len(writers))

输出：

 <type 'str'>
23

这是发生了什么变化：

在文件顶部指定文件编码
将 \xe9 替换为实际的 Unicode 字符 ( é )
删除 u 前缀

它在 Python 2.7.12 和 3.5.2 中工作得很好。

But be warned that removing the u prefixes will make python use regular str type instead of unicode (see output of print(type(writers)) ).在 utf-8 的情况下，它在大多数地方都像 unicode 字符串一样工作，但是在检查文本长度时将返回错误的值。在此示例 len 返回 23 ，其中实际字符数为 22 。这是因为底层类型是 str ，它将每个字节计为一个字符，但字符 é 实际上应该是两个字节。

换句话说，这在输出数据正常时有效（如您的示例所示），但如果您想对文本进行字符串操作则无效。在这种情况下，在字符串操作之前，您仍然需要使用 u 前缀或将数据显式转换为 unicode 类型。

因此，如果不是您的简单示例，最好仍然使用 u 前缀。你需要在两个地方：

 #!/usr/bin/env python
# -*- coding: utf-8 -*-

people = [u'Nicholas Gyeney', u'André']
writers = ", ".join(people)
print(writers)
print(u"Writers: {}".format(writers))

print(type(writers))
print(len(writers))

输出：

 <type 'unicode'>
22

注意： u 前缀在 Python 3.0 中被删除，然后在 Python 3.3 中再次引入以实现向后兼容性。

官方文档中提供了有关在 Python 2 中使用 unicode 文本的所有复杂性的详细说明： Python 2 - Unicode HOWTO 。

以下是指定文件编码的特殊注释的摘录：

Python 支持以任何编码编写 Unicode 文字，但您必须声明所使用的编码。这是通过在源文件的第一行或第二行包含特殊注释来完成的：

>  #!/usr/bin/env python
> # -*- coding: latin-1 -*-
>
> u = u'abcdé' print ord(u[-1])
>
> ```
>
> 该语法的灵感来自 Emacs 用于指定文件局部变量的符号。 Emacs 支持许多不同的变量，但 Python 只支持 `coding` 。 `-*-` 符号向 Emacs 表明注释是特殊的；它们对 Python 没有意义，而是一种约定。 Python 在注释中查找 `coding: name` 或 `coding=name` 。
>
> 如果您不包含这样的注释，则使用的默认编码将是 ASCII。

如果您拿到了《 [学习 Python，第 5 版](http://shop.oreilly.com/product/0636920028154.do)》这本书，我鼓励您阅读第 VIII 部分的第 37 章“Unicode 和字节串”。高级主题。它包含有关在两代 Python 中使用 Unicode 文本的详细说明。

Another detail worth mentioning is that `format` always returns an `ascii` string if the format string was `ascii` , no matter that the arguments were in `unicode` 。

与此相反，如果任何参数是 \-\-\- 的旧样式格式返回 `%` `unicode` 字符串 `unicode` 。所以与其写这个

print(u”Writers: {}“.format(writers))


你可以这样写，它不仅更短更漂亮，而且适用于 Python 2 和 3：

print(“Writers: %s” % writers)

”`

原文由 quasoft 发布，翻译遵循 CC BY-SA 3.0 许可协议

python 2 和 3 中的 UTF-8 字符串

你尚未登录，登录后可以

学信网的前端使用了什么技术隐藏字符？

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

如何使用 python 代码实现迅雷磁力链接资源的下载？

请问，FastAPI如何获取到前端上传的二进制文件并且返回？

如何实现一个深拷贝函数？

浏览器能请求到数据怎么换了api工具或是爬虫都没数据了呢？

Stack Overflow 翻译