python网页unicode编码问题

mzcyx2011

发布于
2015-11-28

图片描述

原网页源代码是这样的：
"server_filename":"\u4e16\u754c500\u5f3a\u9762\u8bd5\u9898.pdf"
爬下来就是ss.filename
'\\u4e16\\u754c500\\u5f3a\\u9762\\u8bd5\\u9898.pdf'
但是我想要的格式是
u'\u4e16\u754c500\u5f3a\u9762\u8bd5\u9898.pdf'
请问该如何是好？
谢谢

python2.7 python爬虫

阅读 4.5k

2 个回答

shanyue

✓ 已被采纳

使用unicode-escape进行解码。

In [9]: s
Out[9]: '\\u4e16\\u754c500\\u5f3a\\u9762\\u8bd5\\u9898.pdf'

In [10]: print s.decode('unicode-escape')
世界500强面试题.pdf

不过，看起来题主的更像是json数据。可以用json解码

In [19]: data = '{"server_filename":"\u4e16\u754c500\u5f3a\u9762\u8bd5\u9898.pdf"}'

In [20]: json.loads(data)
Out[20]: {u'server_filename': u'\u4e16\u754c500\u5f3a\u9762\u8bd5\u9898.pdf'}

hsfzxjy

22k51941

发布于
2015-11-28

s = s.replace('\\\\','\\')

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

浏览器能请求到数据怎么换了api工具或是爬虫都没数据了呢？
4 回答2.3k 阅读

python网页unicode编码问题

你尚未登录，登录后可以

浏览器能请求到数据怎么换了api工具或是爬虫都没数据了呢？