python 多进程使用

发布于
2017-04-11

假设：有个数据操作，处理100万条数据，每个数据的value+1。
如简单代码假设

for x in range(1,100):
    x++

从数据库获取100条了，然后想多进程去执行x++？
还是说多进程去数据库获取数据？
谢谢了

python

阅读 5.2k

4 个回答

得票最新

selfyu

40236

发布于
2017-04-12

有一个问题: 如果是数据库里面的数据, 为什么不执行sql,这比什么多进程要高效的多吧?
如果非要你给出的二选一, 那么考虑一下:

1). 如果你要用多进程去数据库获取数据(就算你用了mysql连接池,可以不怎么考虑数据库连接的io消耗),
你每取一次数据,总要有一次查询吧, 完了以后,你还要把更新后的数据写入到数据库了, 又是一次数据库操作,
想想这个消耗有多大?
2). 数据库获取100万数据，然后想多进程去执行x++; 这种情况啊,只要计算机内存够(只有100万数据,基本是没问题的), 用python的进程池map一下,确实也是没什么问题

JamCh01

3448

发布于
2017-04-11

先将原始数据存入队列（queue）中，作为生产者
后从队列中取数据，执行操作，作为消费者
这时，可以在消费者开多线程（当然你锁处理得好的话，生产者也可以做多线程）

while tmp_queue.empty() is not True:
    x = tmp_queue.get()
    x += 1

在队列中，如果一直存在元素线程会持续进行操作。

龙方淞

888211

发布于
2017-04-11

更新于
2017-04-11

其实Python中实现多进程的最佳方式是使用multiprocessing中的map

例子(Python 3)：

# f.py
# 要对某个列表中每个元素都执行一次的function
def f(x):
    return x + 1

# main.py
from multiprocessing import pool

from f import f
# 创建进程池
p = pool.Pool(4)
lst = range(100)
# 使用多进程对整个列表进行计算
print(p.map(f, lst))

resolvewang

6751615

发布于
2017-04-11

你可以直接把数据读取和数据+1两个函数再写到一个操作中啊，然后用多进程去操作，就上楼上说的一样用进程池进行操作。根据你的cpu核数，设置进程池的大小。由于多进程间不进行内存共享、也不能直接通信，你先用多进程从数据库中把所有数据读出来，然后再用多进程进行val+1也行的

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

python 多进程使用

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？