pyquery爬虫中文乱码

用pyqurery爬到的东西中文乱码，如图

我在程序的头部加入了

author = 'liyuhang'

coding:utf-8

import urllib,urllib2,sys
from lxml import etree
from pyquery import PyQuery as pq
reload(sys)
sys.setdefaultencoding('utf8')

但是结果就出现如图的样子了...
这是怎么回事呢..

阅读 14.3k

3 个回答

得票最新

doc = pq('http://www.baidu.com',encoding="utf-8")
print doc('#u1 a').text()

已经解决了，

原因应该是原本的页面没有设定好charset，PyQuery将它当作是unicode了，所以没有转换encode，直接作为unicode存储了
不是了解PyQuery，所以我的方法不是很好

page = urllib2.urlopen("http://example")
text = unicode(page.read(), "utf-8")
query = PyQuery(text)

新手上路，请多包涵

解决了问题，赞

···
page = urllib2.urlopen("http://example")
text = unicode(page.read(), "utf-8")
query = PyQuery(text)
···

撰写回答

推荐问题