如何使用 Pandas 读取大型 csv 文件？

Question

新手上路，请多包涵

我正在尝试在 pandas 中读取一个大的 csv 文件（大约 6 GB），但出现内存错误：

 MemoryError                               Traceback (most recent call last)
<ipython-input-58-67a72687871b> in <module>()
----> 1 data=pd.read_csv('aphro.csv',sep=';')

...

MemoryError:

有什么帮助吗？

原文由 Rajkumar Kumawat 发布，翻译遵循 CC BY-SA 4.0 许可协议

python pandas csv memory chunks

阅读 357

1 个回答

得票最新

社区维基

1

发布于
2022-12-29

该错误表明机器没有足够的内存来一次将整个 CSV 读入一个 DataFrame。假设您不需要一次将整个数据集全部存储在内存中，避免该问题的一种方法是分块处理 CSV （通过指定 chunksize 参数）：

 chunksize = 10 ** 6
for chunk in pd.read_csv(filename, chunksize=chunksize):
    process(chunk)

chunksize 参数指定每个块的行数。（当然，最后一个块可能包含少于 chunksize 行。）

熊猫 >= 1.2

read_csv 与 chunksize 返回一个上下文管理器，像这样使用：

 chunksize = 10 ** 6
with pd.read_csv(filename, chunksize=chunksize) as reader:
    for chunk in reader:
        process(chunk)

参见 GH38225

原文由 unutbu 发布，翻译遵循 CC BY-SA 4.0 许可协议

查看全部 1 个回答

推荐问题

Stack Overflow 翻译

子站问答

访问

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题

如何使用 Pandas 读取大型 csv 文件？

熊猫 >= 1.2

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？

Stack Overflow 翻译