pdf内容为二进制流字符串,在进行json序列化的时候,会出编码错误的提示,请问怎么解决?

pdf内容为二进制流字符串,chardet.detect(str)的结果是{'confidence': 0.0, 'encoding': None}。在进行json序列化的时候,
1.如果将默认编码设置为utf-8,即在文件最头部加上
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
**直接jsonify(含这个字符串的dict),会导致以下错误:
UnicodeDecodeError: 'utf8' codec can't decode byte 0xf0 in position 10: invalid continuation byte**
2.如果对这个字符串进行unicode(str, errors='ignore')处理,则会出现文件内容显示不出来但页数可以出来的问题
3.尝试各种编解码中还遇到过UnicodeEncodeError: 'ascii' codec can't encode character u'xa0' in position 20: ordinal not in range(128)
但试过给出的解决办法,无一奏效
麻烦大神相助,指导下这个字符串改如何处理~?

阅读 2.4k
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题