python 爬虫转码

我用scrapy写了一个爬取网站的代码,但是返回的是unicode的字符串,怎样获得原来的中文呢??

阅读 5.6k
2 个回答

首先:
第一个概念:unicode:这个是python的内建函数,位于unicode类。
unicode(string [, encoding[, errors]]) -> object,这个函数的作用是将string按照encoding的格式编码成为unicode对象。省略参数将用python默认的ASCII来解码
第二个概念:在python中,编码:unicode-->str;解码str-->unicode.既然是编码,那么就和密码领域一样,编码和解码自然涉及到编码/解码方案(对应加密或者解密算法),unicode相当于明文。在python中,编码函数是encode(),解码函数是decode()。
所以假设你要转换成gbk的话,gbkstring=unicodestring.encode("gbk") ,其他的类似。

可以参考这篇文章:scrapy中文编码问题

其实,如果你将爬下来的内容保存为.json格式的话,再用json解析工具解析一下就好了,当然我也是scrapy初学者,建议仅供参考。:)

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题