批量读写怎么提高mongo写入效率?

GYLTP

2111834

发布于
2021-12-04

更新于
2021-12-06

需要把一个库中的数据用脚本转化一下写入到一些新的库中大概有100w条

如果用for实在太慢了看了一圈如果要用多线程都没有特别好的最佳实践

一般业内是怎么处理呢？
目前用的是最笨的办法：

i = coll.find({}):

for j in i:
parse(j)
new_coll.insert(parse(j))

其中主要的发现和瓶颈：
1、find那一步是直接获取一个指针，但是100w的数据量，如果不加batch_size 会卡住。我现在设置batch为10，可以稳定提取，但是速度不够快
2、insert那一步，速度由find决定。显然如果用多线程会好一点。但是这个多线程是否会受find制约？

python

mongodb

阅读 3.3k

2 个回答

得票最新

然后去远足

43.1k103863

发布于
2021-12-06

你现在的瓶颈是在写 MongoDB 上、还是你前面那个所谓的“转化”上？

如果是前者，MongoDB 本身是支持 bulkWrite 操作的；如果是后者，具体问题具体分析，信息太少猜不出来。

xdsnet

7.6k3527

发布于
2021-12-06

从你现在的描述来看，你需要充分利用 bulkWrite 特性来加速，并且在find中合理调整batch的大小到一个最高效率的度。

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

批量读写怎么提高mongo写入效率?

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？

批量读写 怎么提高mongo写入效率?

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？

批量读写怎么提高mongo写入效率?