爬虫获取网站数据，出现乱码怎么解决。

王dddddddd

发布于
2017-04-08

更新于
2017-04-08

#!/usr/bin/python
# -*- coding: utf-8 -*-
import urllib2
import re
import HTMLParser

class WALLSTREET:
    def __init__(self, baseUrl):
        self.url = baseUrl
    def get_html_content(self):
        url = self.url
        response = urllib2.urlopen(url)
        str = response.read()
        print str
baseUrl="https://wallstreetcn.com/live/global" #华尔街见文url
ws = WALLSTREET(baseUrl)
ws.get_html_content()

以上是代码，写的很简单，但是print出来的是乱码
尝试了 print str.decode(“utf-8“”)
但是报错
UnicodeDecodeError: 'utf8' codec can't decode byte 0x8b in position 1: invalid start byte

阅读 4.5k

4 个回答

魔亦有道

发布于
2017-04-09

✓ 已被采纳

str = response.read()这句有两个问题：
1、str是内置关键字必须更改为其他变量名
2、查看网页源代码的编码方式，如果为utf-8在read()后加.decode('utf-8')，若为其他可以相应解码

小建议这种小程序写个函数会比用类来更加方便，无论是使用还是实现

发布于
2017-04-08

推测用的是sublime text？
参考这个

发布于
2017-04-08

这儿应该是encode不是decode，而且你的变量名居然是跟内置关键字名字一样

发布于
2017-04-08

应该是encode吧

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题