python网页unicode编码问题

图片描述

原网页源代码是这样的:
"server_filename":"\u4e16\u754c500\u5f3a\u9762\u8bd5\u9898.pdf"
爬下来就是ss.filename
'\\u4e16\\u754c500\\u5f3a\\u9762\\u8bd5\\u9898.pdf'
但是我想要的格式是
u'\u4e16\u754c500\u5f3a\u9762\u8bd5\u9898.pdf'
请问该如何是好?
谢谢

阅读 4.5k
2 个回答

使用unicode-escape进行解码。

In [9]: s
Out[9]: '\\u4e16\\u754c500\\u5f3a\\u9762\\u8bd5\\u9898.pdf'

In [10]: print s.decode('unicode-escape')
世界500强面试题.pdf

不过,看起来题主的更像是json数据。可以用json解码

In [19]: data = '{"server_filename":"\u4e16\u754c500\u5f3a\u9762\u8bd5\u9898.pdf"}'

In [20]: json.loads(data)
Out[20]: {u'server_filename': u'\u4e16\u754c500\u5f3a\u9762\u8bd5\u9898.pdf'}
s = s.replace('\\\\','\\')
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进