爬虫如何解决编码问题?

我用浏览器去请求,返回内容是正常的
image.png

但是我用代码去请求,就会返回乱码
image.png

这种是什么原因呢,该如何解决

阅读 1.5k
1 个回答

有三种方案:

  • 设置 request header 请求头相关的编码字段,告诉服务端我需要什么编码的结果
  • 判断 response header 响应头中的编码信息的字段获取编码信息
  • 通过 response.text 的实际内容来确定编码

第一种方案,取决于服务器想不想理你
第二种方案,取决于服务器想不想设置相关字段
第三种方案,取决于 response.text 是否包含 bom 信息,如果没有 bom 信息,只能靠对 response.text 编码统计之后猜测编码 🤡 🤡 🤡

具体可参考:再也不用担心网页编码的坑了!

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题