表中100万数据，多线程更新，怎么设计？

表中有100万+条数据，通过cate_id分成8类，并且在不停增加，默认status=1
我现在需要写爬虫，从表中读数据，然后请求一个api，把返回的数据再更新回去，更新status=2。

多线程不知道怎么设计
目前这么写的，感觉这样写很扯淡

    while True:
        for i in cate_ids:
            tp_items = TpItem.objects.filter(cate_id=i, status=1)[:1000]
            if tp_items:
                p.apply_async(info_parse(tp_items, proxy_list))

        p.close()
        p.join()
        
        time.sleep(30)
        #每轮从表中各cate_id取1000条数据进行处理。

因为不同cate_id的数据量不一样，这样跑到后面可能只剩下一个cate_id类别的数据没有处理完，相当于变成单线程在跑了。
该怎么设计？

阅读 5.7k

建议可以用生产者-消费者模式。

使用python的Queue队列，创建一个队列。
开启一个生产者线程，从数据库中读出status=1的数据，并一条一条的放入队列中。
开启多个消费者线程，数量按实际测试情况设置。消费者线程每次从队列中取出一条记录，发起API请求，当请求完成后写入数据库。

python的Queue自带线程同步机制，可以简化开发。
由于瓶颈应该在调用远程API，读取数据用一个线程就够了，如果嫌慢，可以开8个线程，每个线程读一个表。
生产者线程从数据库读数据时可以做流量限制，在往队列放status=1的数据时，如果队列中数量达到了1000条（或自定义阀值）时阻塞住，直到队列中任务数量少于1000条，防止队列被写爆掉。

表中100万数据，多线程更新，怎么设计？

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

表中100万数据，多线程更新，怎么设计？

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。 请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？