新手上路，请多包涵

我正在使用 Django 1.9。我有一个 Django 表，它表示特定度量的值，按月组织，具有原始值和百分位数：

 class MeasureValue(models.Model):
    org = models.ForeignKey(Org, null=True, blank=True)
    month = models.DateField()
    calc_value = models.FloatField(null=True, blank=True)
    percentile = models.FloatField(null=True, blank=True)

通常每月有 10,000 个左右。我的问题是我是否可以加快在模型上设置值的过程。

目前，我通过使用 Django 过滤器查询检索一个月的所有测量值来计算百分位数，将其转换为熊猫数据框，然后使用 scipy 的 rankdata 设置排名和百分位数。我这样做是因为 pandas 和 rankdata 高效，能够忽略空值，并且能够按照我想要的方式处理重复值，所以我对这种方法很满意：

 records = MeasureValue.objects.filter(month=month).values()
df = pd.DataFrame.from_records(records)
// use calc_value to set percentile on each row, using scipy's rankdata

但是，然后我需要从数据框中检索每个百分位值，并将其设置回模型实例。现在我通过遍历数据框的行并更新每个实例来做到这一点：

 for i, row in df.iterrows():
    mv = MeasureValue.objects.get(org=row.org, month=month)
    if (row.percentile is None) or np.isnan(row.percentile):
        row.percentile = None
    mv.percentile = row.percentile
    mv.save()

不出所料，这非常慢。是否有任何有效的 Django 方法可以通过写入单个数据库而不是数万个来加快速度？我已经检查了文档，但看不到一个。

原文由 Richard 发布，翻译遵循 CC BY-SA 4.0 许可协议

python django

阅读 417

2 个回答

得票最新

社区维基

发布于
2023-01-09

✓ 已被采纳

原子事务可以减少循环中花费的时间：

 from django.db import transaction

with transaction.atomic():
    for i, row in df.iterrows():
        mv = MeasureValue.objects.get(org=row.org, month=month)

        if (row.percentile is None) or np.isnan(row.percentile):
            # if it's already None, why set it to None?
            row.percentile = None

        mv.percentile = row.percentile
        mv.save()

Django 的默认行为是以自动提交模式运行。每个查询都会立即提交给数据库，除非事务处于活动状态。

通过使用 with transaction.atomic() 所有插入都被分组到一个事务中。提交事务所需的时间分摊到所有包含的插入语句中，因此每个插入语句的时间大大减少。

原文由 ahmed 发布，翻译遵循 CC BY-SA 3.0 许可协议

社区维基

发布于
2023-01-09

从 Django 2.2 开始，您可以使用 bulk_update() queryset 方法有效地更新提供的模型实例上的给定字段，通常使用一个查询：

 objs = [
    Entry.objects.create(headline='Entry 1'),
    Entry.objects.create(headline='Entry 2'),
]
objs[0].headline = 'This is entry 1'
objs[1].headline = 'This is entry 2'
Entry.objects.bulk_update(objs, ['headline'])

在旧版本的 Django 中，您可以使用 update() 和 Case / When ，例如：

 from django.db.models import Case, When

Entry.objects.filter(
    pk__in=headlines  # `headlines` is a pk -> headline mapping
).update(
    headline=Case(*[When(pk=entry_pk, then=headline)
                    for entry_pk, headline in headlines.items()]))

原文由 Eugene Yarmash 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

在 Django 中一次更新多个对象？

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译

在 Django 中一次更新多个对象？

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。 请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？