尽管有类似的问题,但我似乎找不到适合我的案例的有效解决方案:
我在字符串中遇到一些烦人的十六进制字符,例如
'\xe2\x80\x9chttp://www.google.com\xe2\x80\x9d blah blah#%#@$^blah'
我需要的是删除这些十六进制 \xHH
字符,并且单独删除它们,以获得以下结果:
'http://www.google.com blah blah#%#@$^blah'
解码没有帮助:
s.decode('utf8') # u'\u201chttp://www.google.com\u201d blah blah#%#@$^blah'
我怎样才能做到这一点?
原文由 Kludge 发布,翻译遵循 CC BY-SA 4.0 许可协议
只需删除所有非 ASCII 字符:
其他可能的解决方案:
或者使用正则表达式:
选择你最喜欢的。