psycopg2处理大数据量SQL在execute(sql)卡死？

发布于
2023-11-08 四川

更新于
2023-11-09

题目描述

sql='select * from A'，A表有8百万数据

前段时间写了数据库互相导数据的Python脚本，是Oracle导入postgreSQL，使用cx_Oracle执行execute(sql)没有任何问题。这次是postgreSQL导入postgreSQL，使用psycopg2执行execute(sql)就直接卡死在这一行了，并且内存占用持续上升。

自己的思路

数据库连接是没有问题的，因为其他少数据量表可以正常执行，A表的SQL写分页也可以正常执行。我也清楚可以通过多次分页实现避免这个bug，但是我想咨询下各位大佬为什么会出现这个问题？按道理来说execute(sql)这里是不会查询数据的，后面应该是通过方法或者循环游标获取数据，但它就是在这里卡住了，持续攀升的内存让我认为它在这里就执行了sql，并且想把这8百万数据加载入内存！这个问题是怎么导致的啊？或者说是psycopg2库的bug???

解决方法

看到下面大佬的回答，我搜索了下服务端游标，最后做出总结：

客户端和服务端游标的区别：客户端会把结果全部加载进内存，服务端只会获取一个指针
Oracle默认使用的是服务端游标，这就是为什么cx_Oracle没问题的原因！
psycopg2默认客户端游标，开启服务端游标的方法是cursor(name='server_cursor')

python postgresql

阅读 1.6k

AI BotBETA

回答

根据你提供的信息，问题可能出在psycopg2库对大数据量的处理上。当你执行一条查询语句，例如 select * from A，psycopg2会试图将所有的数据都加载到内存中，这可能导致内存溢出或程序卡死。

这个问题可能是由于psycopg2的内部机制在处理大量数据时出现了一些问题。对于大数据量的处理，通常需要使用游标（cursor）或者分页查询的方式，以避免一次性加载所有数据到内存中。

你可以尝试以下几种方法来解决这个问题：

使用游标（cursor）：通过游标，你可以逐行获取数据，而不是一次性加载所有数据到内存中。你可以使用 cursor.fetchone() 或 cursor.fetchmany() 方法来获取数据。
分页查询：通过分页查询，你可以将数据分批次加载到内存中，而不是一次性加载所有数据。例如，你可以使用 LIMIT 和 OFFSET 关键字来分页查询。
批量插入：如果你需要将大量数据插入到数据库中，可以考虑使用批量插入的方式，以减少数据库操作的次数，提高效率。
检查内存使用：你可以检查程序的内存使用情况，以确定是否出现了内存溢出的问题。如果内存持续上升，可能是由于一次性加载了太多的数据到内存中。

总之，对于大数据量的处理，需要谨慎使用psycopg2库，并采取适当的方法来避免内存溢出或卡死的问题。

2 个回答

发布于
2023-11-08 上海

✓ 已被采纳

用服务器端游标:

with conn.cursor(name='server_cursor') as cursor:
    cursor.itersize = 10000  # 设置你要的批量大小
    cursor.execute(sql)
    for record in cursor:
        # 处理记录