如何在不耗尽内存的情况下从 sql 查询创建大熊猫数据框？

我无法从 MS SQL Server 数据库中查询超过 500 万条记录的表。我想选择所有记录，但是在将大量数据选择为内存中时，我的代码似乎失败了。

这有效：

 import pandas.io.sql as psql
sql = "SELECT TOP 1000000 * FROM MyTable"
data = psql.read_frame(sql, cnxn)

…但这不起作用：

 sql = "SELECT TOP 2000000 * FROM MyTable"
data = psql.read_frame(sql, cnxn)

它返回此错误：

 File "inference.pyx", line 931, in pandas.lib.to_object_array_tuples
(pandas\lib.c:42733) Memory Error

我在这里读到，从 csv 文件创建 dataframe 时存在类似的问题，解决方法是使用这样的“迭代器”和“块大小”参数：

 read_csv('exp4326.csv', iterator=True, chunksize=1000)

从 SQL 数据库中查询是否有类似的解决方案？如果没有，首选的解决方法是什么？我应该使用其他一些方法来分块读取记录吗？我在这里阅读了一些关于在 pandas 中处理大型数据集的讨论，但执行 SELECT * 查询似乎需要做很多工作。当然有更简单的方法。

原文由 slizb 发布，翻译遵循 CC BY-SA 4.0 许可协议

阅读 628

import pandas as pd import pandas.io.sql as psql chunk_size = 10000 offset = 0 dfs = [] while True: sql = "SELECT * FROM MyTable limit %d offset %d order by ID" % (chunk_size,offset) dfs.append(psql.read_frame(sql, cnxn)) offset += chunk_size if len(dfs[-1]) < chunk_size: break full_df = pd.concat(dfs)

如何在不耗尽内存的情况下从 sql 查询创建大熊猫数据框？

你尚未登录，登录后可以

Qt中布局是否只有5种呢？

这段代码为什么不能获取到数据？

请问一下，如何理解reduce函数呢？

如何使用Python+Selenium爬取Goodreads上万条书评而不崩溃？

如何使用 python 代码实现迅雷磁力链接资源的下载？

在PyCharm开发不同python项目，如果每个项目使用自己的venv环境，是不是每次切换项目都需要修改python interpreter？

请问，FastAPI如何获取到前端上传的二进制文件并且返回？

Stack Overflow 翻译