【问题标题】:Django & Postgres - percentile (median) and group byDjango & Postgres - 百分位数(中位数)和分组依据
【发布时间】:2020-04-28 09:57:07
【问题描述】:

我需要计算每个卖家 ID 的期间中位数(参见下面的简化模型)。问题是我无法构造 ORM 查询。

型号

class MyModel:
    period = models.IntegerField(null=True, default=None)
    seller_ids = ArrayField(models.IntegerField(), default=list)
    aux = JSONField(default=dict)

查询

queryset = (
    MyModel.objects.filter(period=25)
    .annotate(seller_id=Func(F("seller_ids"), function="unnest"))
    .values("seller_id")
    .annotate(
        duration=Cast(KeyTextTransform("duration", "aux"), IntegerField()),
        median=Func(
            F("duration"),
            function="percentile_cont",
            template="%(function)s(0.5) WITHIN GROUP (ORDER BY %(expressions)s)",
        ),
    )
    .values("median", "seller_id")
)

ArrayField aggregation (seller_id) source


我认为我需要做的是以下几行

select t.*, p_25, p_75
from t join
     (select district,
             percentile_cont(0.25) within group (order by sales) as p_25,
             percentile_cont(0.75) within group (order by sales) as p_75
      from t
      group by district
     ) td
     on t.district = td.district

above example source


Python 3.7.5、Django 2.2.8、Postgres 11.1

【问题讨论】:

  • 澄清一下,您是在使用 django 和 SQLServer 吗?
  • @ivissani 问题下方有一个postgresql 标签,所以没有。
  • 是的......对此感到抱歉
  • 你有什么错误?
  • 那么你的问题是什么?您显示的查询有什么问题?您是尝试使用 ORM 还是?

标签: python django postgresql statistics subquery


【解决方案1】:

您可以创建 Aggregate 类的 Median 子类,就像 Ryan Murphy (https://gist.github.com/rdmurphy/3f73c7b1826cacee34f6c2a855b12e2e) 所做的那样。 Median 然后就像Avg 一样工作:

    from django.db.models import Aggregate, FloatField


    class Median(Aggregate):
        function = 'PERCENTILE_CONT'
        name = 'median'
        output_field = FloatField()
        template = '%(function)s(0.5) WITHIN GROUP (ORDER BY %(expressions)s)'

然后找到一个字段使用的中位数

    my_model_aggregate = MyModel.objects.all().aggregate(Median('period'))

然后可以使用my_model_aggregate['period__median']

【讨论】:

    【解决方案2】:

    这就是诀窍。

    from django.db.models import F, Func, IntegerField
    from django.db.models.aggregates import Aggregate
    
    
    queryset = (
        MyModel.objects.filter(period=25)
        .annotate(duration=Cast(KeyTextTransform("duration", "aux"), IntegerField()))
        .filter(duration__isnull=False)
        .annotate(seller_id=Func(F("seller_ids"), function="unnest"))
        .values("seller_id")  # group by
        .annotate(
            median=Aggregate(
                F("duration"),
                function="percentile_cont",
                template="%(function)s(0.5) WITHIN GROUP (ORDER BY %(expressions)s)",
            ),
        )
    )
    

    请注意问题中的median annotation employs Aggregate 而不是Func。 另外,order of annotate() and filter() clausesorder of annotate() and values() clauses 很重要

    顺便说一句,生成的 SQL 没有嵌套的选择和连接。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2014-03-12
      • 1970-01-01
      • 2020-05-28
      • 2021-02-26
      • 2020-10-07
      • 1970-01-01
      • 2015-03-09
      相关资源
      最近更新 更多