[Python] python2.7总算遇到中文编码坑了

发布于
2016-04-15

我从外部API中获得了一个字符串：

 "\u4ece\u8d77\u70b9\u5411\u6b63\u5357\u65b9\u5411\u51fa\u53d1,\u884c\u9a76170\u7c73,\u76f4\u884c\u8fdb\u5165\u4e2d\u5173\u6751\u4e1c\u8def"

被传给了变量a，以utf8字节串，所以：

a    
'\\u4ece\\u8d77\\u70b9\\u5411\\u6b63\\u5357\\u65b9\\u5411\\u51fa\\u53d1,\\u884c\\u9a76170\\u7c73,\\u76f4\\u884c\\u8fdb\\u5165\\u4e2d\\u5173\\u6751\\u4e1c\\u8def'

print a
\u4ece\u8d77\u70b9\u5411\u6b63\u5357\u65b9\u5411\u51fa\u53d1,\u884c\u9a76170\u7c73,\u76f4\u884c\u8fdb\u5165\u4e2d\u5173\u6751\u4e1c\u8def

这就是已经成了这样的现实状态。

我要把a变成unicode字符要怎么做？

# 把a变成：
u'\u4ece\u8d77\u70b9\u5411\u6b63\u5357\u65b9\u5411\u51fa\u53d1,\u884c\u9a76170\u7c73,\u76f4\u884c\u8fdb\u5165\u4e2d\u5173\u6751\u4e1c\u8def'

python2.7 coding

阅读 5.4k

3 个回答

island_

✓ 已被采纳

出现这个问题的主要原因是python吧Unicode编码当成了普
通的字符串，因此把原来的斜杠又加了一个斜杠进行转义
个人认为比较简单的解决方法是用 decode('unicode-escape')

str = "\u4ece\u8d77\u70b9\u5411\u6b63\u5357\u65b9\u5411\u51fa\u53d1"
uni_str = str.decode('unicode-escape')
print uni_str

图片描述

简单粗暴

程序员小杜

1.3k316

发布于
2016-04-15

无视a里的那些转义\么？那u'' + a就好了……

zeromake

1.3k1716

发布于
2016-04-15

更新于
2016-04-15

import re
str='\\u4ece\\u8d77\\u70b9\\u5411\\u6b63\\u5357\\u65b9\\u5411\\u51fa\\u53d1\\u884c\\u9a76170\\u7c73,\\u76f4\\u884c\\u8fdb\\u5165\\u4e2d\\u5173\\u6751\\u4e1c\\u8def'
pat=re.compile('\\\\u((\d|[a-f]){4})')
def change_str(u_str):
    return unichr(int(u_str.group(1),16))
tmp=pat.sub(change_str,str)
print(tmp)

图片描述
弄了老半天只有这样了。。。不知道有没更好的。。

楼下的str.decode('unicode-escape')直接可以

str='\\u4ece\\u8d77\\u70b9\\u5411\\u6b63\\u5357\\u65b9\\u5411\\u51fa\\u53d1\\u884c\\u9a76170\\u7c73,\\u76f4\\u884c\\u8fdb\\u5165\\u4e2d\\u5173\\u6751\\u4e1c\\u8def'
print(str.decode('unicode-escape'))

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进