加载存储在 BytesIO 对象中的 json 文件的正确方法是什么?

新手上路,请多包涵

我收到的数据是 bytes 因此我需要 类似文件的 临时容器。据我所知 BytesIO类文件 对象,但是 json.load() 不起作用:

 In [1]: import json
   ...: from io import BytesIO, TextIOWrapper

In [2]: d, b = dict(a=1, b=2), BytesIO()

In [3]: b.write(json.dumps(d).encode())
Out[3]: 16

In [4]: b.seek(0)
Out[4]: 0

In [5]: b.read()
Out[5]: b'{"a": 1, "b": 2}'

In [6]: b.seek(0)
Out[6]: 0

In [7]: json.load(b)
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-7-233ac51d2711> in <module>()
----> 1 json.load(b)

/usr/lib/python3.5/json/__init__.py in load(fp, cls, object_hook, parse_float, parse_int, parse_constant, object_pairs_hook, **kw)
    266         cls=cls, object_hook=object_hook,
    267         parse_float=parse_float, parse_int=parse_int,
--> 268         parse_constant=parse_constant, object_pairs_hook=object_pairs_hook, **kw)
    269
    270

/usr/lib/python3.5/json/__init__.py in loads(s, encoding, cls, object_hook, parse_float, parse_int, parse_constant, object_pairs_hook, **kw)
    310     if not isinstance(s, str):
    311         raise TypeError('the JSON object must be str, not {!r}'.format(
--> 312                             s.__class__.__name__))
    313     if s.startswith(u'\ufeff'):
    314         raise JSONDecodeError("Unexpected UTF-8 BOM (decode using utf-8-sig)",

TypeError: the JSON object must be str, not 'bytes'

一种有效的方法:

 In [8]: json.loads(b.getvalue().decode())
Out[8]: {'a': 1, 'b': 2}

另一个,大概更有效率?

 In [10]: b.seek(0)
Out[10]: 0

In [11]: json.load(TextIOWrapper(b, encoding='utf-8'))
Out[11]: {'a': 1, 'b': 2}

我有更多(更好)的选择吗?如果否,应首选上述方法中的哪一种?

原文由 NarūnasK 发布,翻译遵循 CC BY-SA 4.0 许可协议

阅读 1.1k
2 个回答

我建议使用 TextIOWrapper 有两个原因:

  1. 它给了你更多的控制权:你不仅可以指定编码,还可以指定如何处理换行符(例如,如果你正在解析 csv 数据,这将是相关的)和许多其他事情。
  2. 它允许您以流方式处理数据。假设你有一个 10MB 的文件,它不是有效的 json - fileobj.read().decode() 会不必要地将所有 10MB 加载到内存中,但是如果你使用 TextIOWrapper 那么在 JsonDecodeError 之前只会加载几个字节 --- 被抛出。

原文由 Aran-Fey 发布,翻译遵循 CC BY-SA 4.0 许可协议

如果您使用的是 Python 3.5,请升级到 3.6+

3.5

 >>> import sys

>>> sys.version
'3.5.0 (default, Feb 16 2017, 15:47:16) \n[GCC 4.2.1 Compatible Apple LLVM 8.0.0 (clang-800.0.42.1)]'

>>> import json

>>> from io import BytesIO

>>> d, b = dict(a=1, b=2), BytesIO()

>>> b.write(json.dumps(d).encode())
16

>>> b.seek(0)
0

>>> json.load(b)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/Users/cmermingas/.pyenv/versions/3.5.0/lib/python3.5/json/__init__.py", line 268, in load
    parse_constant=parse_constant, object_pairs_hook=object_pairs_hook, **kw)
  File "/Users/cmermingas/.pyenv/versions/3.5.0/lib/python3.5/json/__init__.py", line 312, in loads
    s.__class__.__name__))
TypeError: the JSON object must be str, not 'bytes'

the JSON object must be str, not 'bytes'

3.6

 >>> import sys

>>> sys.version
'3.6.0 (default, Jul 10 2017, 22:19:26) \n[GCC 4.2.1 Compatible Apple LLVM 8.1.0 (clang-802.0.42)]'

>>> import json

>>> from io import BytesIO

>>> d, b = dict(a=1, b=2), BytesIO()

>>> b.write(json.dumps(d).encode())
16

>>> b.seek(0)
0

>>> json.load(b)
{'a': 1, 'b': 2}

原文由 Carlos Mermingas 发布,翻译遵循 CC BY-SA 4.0 许可协议

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题