新手上路，请多包涵

我几乎在整个互联网上进行了搜索，但不知何故，这些方法似乎都不适用于我的情况。

我有两个大的 csv 文件（每个文件有一百万行以上，大小约为 300-400MB）。他们使用 _readcsv 函数可以很好地加载到数据帧中，而无需使用 chunksize 参数。我什至对这些数据执行了一些小操作，如新列生成、过滤等。

但是，当我尝试合并这两个帧时，我得到一个 MemoryError 。我什至尝试过使用 SQLite 来完成合并，但没有成功。手术需要很长时间。

我的是一台配备 8GB RAM 的 Windows 7 PC。 Python版本为2.7

谢谢你。

编辑：我也尝试过分块方法。当我这样做时，我没有得到 MemoryError，但 RAM 使用量激增并且我的系统崩溃了。

原文由 Ronit Chidara 发布，翻译遵循 CC BY-SA 4.0 许可协议

python pandas merge out-of-memory

阅读 990

2 个回答

得票最新

社区维基

发布于
2023-01-04

✓ 已被采纳

当您使用 pandas.merge 合并数据时，它将使用 df1 内存、df2 内存和 merge_df 内存。我相信这就是您出现内存错误的原因。您应该将 df2 导出到 csv 文件并使用 chunksize 选项并合并数据。

这可能是更好的方法，但您可以试试这个。 *对于大型数据集，您可以使用 pandas.read_csv 中的 chunksize 选项

df1 = pd.read_csv("yourdata.csv")
df2 = pd.read_csv("yourdata2.csv")
df2_key = df2.Colname2

# creating a empty bucket to save result
df_result = pd.DataFrame(columns=(df1.columns.append(df2.columns)).unique())
df_result.to_csv("df3.csv",index_label=False)

# save data which only appear in df1 # sorry I was doing left join here. no need to run below two line.
# df_result = df1[df1.Colname1.isin(df2.Colname2)!=True]
# df_result.to_csv("df3.csv",index_label=False, mode="a")

# deleting df2 to save memory
del(df2)

def preprocess(x):
    df2=pd.merge(df1,x, left_on = "Colname1", right_on = "Colname2")
    df2.to_csv("df3.csv",mode="a",header=False,index=False)

reader = pd.read_csv("yourdata2.csv", chunksize=1000) # chunksize depends with you colsize

[preprocess(r) for r in reader]

这会将合并的数据保存为 df3。

原文由 T_cat 发布，翻译遵循 CC BY-SA 3.0 许可协议

社区维基

发布于
2023-01-04

您可能得到 MemoryError: Unable to allocate.. 的原因可能是由于数据框中的重复项或空白。检查您要加入的列（使用合并时），看看是否有重复项或空白。如果是这样，请使用以下命令摆脱它们：

 df.drop_duplicates(subset ='column_name', keep = False, inplace = True)

然后重新运行您的 python/pandas 代码。这对我有用。

原文由 user3062459 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

合并两个 Pandas 数据帧时出现 MemoryError

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？

Stack Overflow 翻译