任务列表储存在mongoDB中 大概三百万条
每个任务执行结束会标记上
现在有个问题
每次脚本开始时读取100任务
用python多进程执行任务时 必须等待所有进程执行结束才能重新读取下一个100条
有没有什么办法让结束的进程不间断去领取新的任务?
创建进程的片段
#!/usr/bin/python
# coding=utf-8
from urllib2 import Request, urlopen, URLError, HTTPError
from multiprocessing import Pool
import os
import sys
task_list = [] # 任务列表
def start_run(i, task_list):
print "进程"+str(i)+"开始"
# 处理task_list任务列表
print "进程"+str(i)+"结束"
if __name__ == '__main__':
print 'Parent process %s.' % os.getpid()
p = Pool(number_of_processes)
for i in xrange(number_of_tasks):
i += 1 # 从1开始
p.apply_async(start_run, args=(i,task_list))
p.close()
p.join()
print 'All subprocesses done.'
拜谢
使用Queue作为数据管道, 在run函数中读取并处理数据;