生成的网页打卡乱码,但是url若换成www.baidu.com则正常,查看后发现贴吧编码是gbk,百度首页编码是gb2312。不知道是什么原因?
# -*- coding:utf-8 -*- from pyquery import PyQuery as pq import codecs d = pq(url'http://tieba.baidu.com/f?kw=宋时行') sep = d('body').html() file = codecs.open('new.html', 'w', 'utf-8') file.write(sep) file.close()
第一,url里面汉字你使用urllib2.quote()转码下
第二,load下来的页面要从gbk转到unicode码在转为utf-8
你可以试试这,我用urllib2就是这样写的,没用过pyquery,所以具体不清楚