【问题标题】:Moving average in postgresqlpostgresql中的移动平均线
【发布时间】:2013-01-22 20:30:03
【问题描述】:

我的 Postgresql 9.1 数据库中有下表:

select * from ro;
date       |  shop_id | amount 
-----------+----------+--------
2013-02-07 |     1001 |      3
2013-01-31 |     1001 |      2
2013-01-24 |     1001 |      1
2013-01-17 |     1001 |      5
2013-02-10 |     1001 |     10
2013-02-03 |     1001 |      4
2012-12-27 |     1001 |      6
2012-12-20 |     1001 |      8
2012-12-13 |     1001 |      4
2012-12-06 |     1001 |      3
2012-10-29 |     1001 |      3

我正在尝试获取与过去 3 个星期四的数据进行比较的移动平均线,不包括当前星期四。这是我的查询:

select date, shop_id, amount, extract(dow from date),
avg(amount) OVER (PARTITION BY extract(dow from date) ORDER BY date DESC
                      ROWS BETWEEN 0 PRECEDING AND 2 FOLLOWING)                          
from ro
where extract(dow from date) = 4

这是给出的结果

date       |  shop_id | amount | date_part |        avg         
-----------+----------+--------+-----------+--------------------
2013-02-07 |     1001 |      3 |         4 | 2.0000000000000000
2013-01-31 |     1001 |      2 |         4 | 2.6666666666666667
2013-01-24 |     1001 |      1 |         4 | 4.0000000000000000
2013-01-17 |     1001 |      5 |         4 | 6.3333333333333333
2012-12-27 |     1001 |      6 |         4 | 6.0000000000000000
2012-12-20 |     1001 |      8 |         4 | 5.0000000000000000
2012-12-13 |     1001 |      4 |         4 | 3.5000000000000000
2012-12-06 |     1001 |      3 |         4 | 3.0000000000000000

我期待

date       |  shop_id | amount | date_part |        avg         
-----------+----------+--------+-----------+--------------------
2013-02-07 |     1001 |      3 |         4 | 2.6666666666666667
2013-01-31 |     1001 |      2 |         4 | 4.0000000000000000
2013-01-24 |     1001 |      1 |         4 | 6.3333333333333333
2013-01-17 |     1001 |      5 |         4 | 6.0000000000000000
2012-12-27 |     1001 |      6 |         4 | 5.0000000000000000
2012-12-20 |     1001 |      8 |         4 |
2012-12-13 |     1001 |      4 |         4 |
2012-12-06 |     1001 |      3 |         4 |

【问题讨论】:

  • +1 好问题 - Pg 版本、示例数据、预期结果。谢谢!在此处转换为 SQLFiddle:sqlfiddle.com/#!1/18891/1
  • 顺便说一句,“日期”是一个糟糕的列名,因为它是数据类型的名称。避免使用它。如果必须使用它,请始终使用表别名对其进行限定并用双引号括起来,如下所示:sqlfiddle.com/#!1/18891/4
  • 感谢 Craig :) 这只是来自一个非常大的表的示例数据集。我只是想先得到正确的查询。

标签: postgresql math average postgresql-9.1 moving-average


【解决方案1】:

SQL Fiddle

select
    "date",
    shop_id,
    amount,
    extract(dow from date),
    case when
        row_number() over (order by date) > 3
        then
            avg(amount) OVER (
                ORDER BY date DESC
                ROWS BETWEEN 1 following AND 3 FOLLOWING
            )
        else null end
from (
    select *
    from ro
    where extract(dow from date) = 4
) s

OP 的查询有问题的是框架规范:

ROWS BETWEEN 0 PRECEDING AND 2 FOLLOWING

除此之外,我的查询通过在应用昂贵的窗口函数之前过滤星期四来避免不必要的计算。

如果需要按 shop_id 进行分区,那么显然将partition by shop_id 添加到avgrow_number 这两个函数中。

【讨论】:

  • 虽然这看起来不错,但可能值得解释一下旧版本的问题所在;为什么它失败了。这将帮助 OP 和其他人学习,而不仅仅是解决眼前的问题
  • 感谢 Clodoalo :) 在我看来,我使用的 ROWS BETWEEN 0 PRECEDING 和 2 FOLLOWING 应该是 ROWS BETWEEN 1 following AND 3 FOLLOWING 非常有意义!几个小时后我会在我更大的数据集上尝试这个并建议:) 再次感谢!
【解决方案2】:

我认为更好的答案可能是:

SELECT date, shop_id, amount, 
    extract(dow from date) AS dow,
    CASE WHEN count(amount) OVER w = 3 
        THEN avg(amount) OVER w END AS average_amt             
FROM ro
WHERE extract(dow from date) = 4 
WINDOW w AS (ORDER BY date DESC ROWS BETWEEN 1 FOLLOWING AND 3 FOLLOWING)

我认为使用同一个窗口来检查窗口中的行数取平均值会更干净。 (这也节省了两个窗口聚合,如原始答案所示。)

关于较早答案中声称“我的查询通过在应用昂贵的窗口函数之前过滤星期四来避免不必要的计算”,这也适用于 OP 建议的查询和我的查询,因为将 EXPLAIN 附加到任一显示。

【讨论】:

猜你喜欢
  • 2017-09-01
  • 2013-12-22
  • 2012-11-28
  • 2022-01-26
  • 2016-05-26
  • 2017-03-19
  • 1970-01-01
  • 1970-01-01
  • 2011-06-29
相关资源
最近更新 更多