pyquery爬虫中文乱码

用pyqurery爬到的东西中文乱码,如图
5238DE68-572C-4EC3-91FD-6EBE90B2E4B7.png

我在程序的头部加入了

author = 'liyuhang'

coding:utf-8

import urllib,urllib2,sys
from lxml import etree
from pyquery import PyQuery as pq
reload(sys)
sys.setdefaultencoding('utf8')

但是结果就出现如图的样子了...
这是怎么回事呢..

阅读 14.3k
3 个回答

已经解决了,

原因应该是原本的页面没有设定好charset,PyQuery将它当作是unicode了,所以没有转换encode,直接作为unicode存储了
不是了解PyQuery,所以我的方法不是很好

page = urllib2.urlopen("http://example")
text = unicode(page.read(), "utf-8")
query = PyQuery(text)

解决了问题,赞

···
page = urllib2.urlopen("http://example")
text = unicode(page.read(), "utf-8")
query = PyQuery(text)
···
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进