pymongo初体验及插入性能测试

话说

网上的pymongo教程都有点老了，也就菜鸟教程的可以看一看，别的博客什么的就别看了，翻了一堆都是过时的，建议直接看官方文档，内容不多，上手也很简单。

发现的问题

和网上的用法不同，目前只用MongoClient()一种连接方式，也不存在safe=true这个参数了，maxPoolSize默认100，可以在连接时自己设置。
和网上的说法不同，据说插入数据的时候指定_id比不指定更快，实际测试恰恰相反，但差别不大，能指定还是指定
logging.info()挺耗时间的，测试插入1万条数据，加这一句耗时16秒左右，不加只用7秒左右

pymongo使用

import requests
from pymongo import MongoClient
import logging
import time
import json
from concurrent.futures import ThreadPoolExecutor

logging.basicConfig(level=logging.DEBUG,
                    format='%(asctime)s  [%(threadName)s]  %(levelname)s: %(message)s')

# 复用连接，能大幅提高效率
s = requests.Session()
# 修改默认连接数（10），改为20 host，200连接池，http https 分别对应各自类型，只是需要分别设置
s.mount('https://', requests.adapters.HTTPAdapter(pool_connections=20, pool_maxsize=200))
s.mount('http://', requests.adapters.HTTPAdapter(pool_connections=20, pool_maxsize=200))


def getHTML(uid):
    # url = ''
    return uid


def toDB(obj):
    res = obj.result()
    x = collect.insert_one({'_id': res + 20000, 'uid': res})  #   # 加_id貌似更快，网上说的不加更快，都是放屁
    # logging.info(x.inserted_id)


if __name__ == "__main__":
    logging.info('start')
    # client = MongoClient('127.0.0.1', 27017)  # 默认连接
    client = MongoClient('127.0.0.1', 65500, maxPoolSize=200)  # 200连接数
    db = client['douyin']
    collect = db['user']
    pool = ThreadPoolExecutor()  # 默认为CPU数*5
    t = time.perf_counter()
    for short_id in range(10000):
        pool.submit(getHTML, short_id).add_done_callback(toDB)
    pool.shutdown(wait=True)
    client.close()
    t = time.perf_counter() - t
    print(t)

pymongo初体验及插入性能测试

话说

发现的问题

pymongo使用

二毛erma0

引用和评论

frida-rpc实现某一短视频刷邀请

如何减少跨团队交付摩擦？——基于 DevOps 与敏捷的最佳实践

科学计算编程涉及到的技术栈简介

使用 chardet 判断文件编码需要注意的坑——过大的文件会导致高耗时

Python3 格式化时间（qbit）

本地使用PaddleOCR进行图片识别获得文字（返回JSON）

manus 的替代品有哪些？使用LLM大模型技术做手机/网页/浏览器自动化操作技术汇总