我该怎么写正则?

s = u'\ud83d\udc8b'
co = re.compile( u'\ud83d\udc8b')
co.sub(u'',s)
print(u'ud83d')

输出如下
UnicodeEncodeError: 'utf-8' codec can't encode character 'ud83d' in position 0: surrogates not allowed

s中大概是一个微博表情,搞了一下午怎么都显示不出来,想着替换掉算了然后怎么都没法匹配到,为什么呢

阅读 2.9k
2 个回答

首先,是2个问题
1.为什么显示不出来
2.想替换掉但是为什么匹配不到

回答
1.特殊编码在终端上是无法显示的,如果是在UI上显示,那么需要把UI的encoding设置好。
2.试试下面的代码

import re
s = u'hello \ud83d\udc8b world'
co = re.compile( u'\ud83d\udc8b')
ss = co.sub(u'',s)
print(ss)

运行结果:
hello world

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题