表中100万数据，多线程更新，怎么设计？

发布于
2016-12-20

表中有100万+条数据，通过cate_id分成8类，并且在不停增加，默认status=1
我现在需要写爬虫，从表中读数据，然后请求一个api，把返回的数据再更新回去，更新status=2。

多线程不知道怎么设计
目前这么写的，感觉这样写很扯淡

    while True:
        for i in cate_ids:
            tp_items = TpItem.objects.filter(cate_id=i, status=1)[:1000]
            if tp_items:
                p.apply_async(info_parse(tp_items, proxy_list))

        p.close()
        p.join()
        
        time.sleep(30)
        #每轮从表中各cate_id取1000条数据进行处理。

因为不同cate_id的数据量不一样，这样跑到后面可能只剩下一个cate_id类别的数据没有处理完，相当于变成单线程在跑了。
该怎么设计？

python 多线程网页爬虫

阅读 5.6k

4 个回答

得票最新

lookcat

发布于
2016-12-20

✓ 已被采纳

看到了这个问题，想了想自己遇到该怎么处理。下面这篇文章，应该可以解决你的问题
https://segmentfault.com/a/11...

建议可以用生产者-消费者模式。

使用python的Queue队列，创建一个队列。
开启一个生产者线程，从数据库中读出status=1的数据，并一条一条的放入队列中。
开启多个消费者线程，数量按实际测试情况设置。消费者线程每次从队列中取出一条记录，发起API请求，当请求完成后写入数据库。

python的Queue自带线程同步机制，可以简化开发。
由于瓶颈应该在调用远程API，读取数据用一个线程就够了，如果嫌慢，可以开8个线程，每个线程读一个表。
生产者线程从数据库读数据时可以做流量限制，在往队列放status=1的数据时，如果队列中数量达到了1000条（或自定义阀值）时阻塞住，直到队列中任务数量少于1000条，防止队列被写爆掉。