【问题标题】:SQL: Check if n consecutive records are greater than some valueSQL:检查n个连续记录是否大于某个值
【发布时间】:2017-12-03 01:17:30
【问题描述】:

我有一个包含数字的表格。我必须找出是否存在 n 个连续数字大于某个阈值 m 的情况。 例如

id      delta         
---------------
1        10  
4        15 
11       22 
23       23  
46       21
57       9

所以在这里,如果我想知道是否有 3 个连续记录的值超过 20,那么我应该得到 True。当我检查 4 条连续记录时为 False。那可能吗?这是在 Apache Spark SQL 上。谢谢。

【问题讨论】:

  • 可以。哪个DBMS?..
  • 如前所述,它位于 Apache Spark 上。谢谢。
  • 最初它没有被标记.. 我不知道 apache-spark.. 试试下面的答案

标签: sql apache-spark-sql gaps-and-islands


【解决方案1】:

您可以使用延迟来做到这一点:

select t.*
from (select t.*,
             lag(val, 1) over (order by id) as val_1,
             lag(val, 2) over (order by id) as val_2
      from t
     ) t
where val > 20 and val_1 > 20 and val_2 > 20;

这将返回作为每个三人组一部分的第一行。如果你只想要真/假:

select (case when count(*) > 0 then 'true' else 'false' end)
from (select t.*,
             lag(val, 1) over (order by id) as val_1,
             lag(val, 2) over (order by id) as val_2
      from t
     ) t
where val > 20 and val_1 > 20 and val_2 > 20;

编辑:

我错过了不想超过 3 个的部分。所以,你可以增强它:

select (case when count(*) > 0 then 'true' else 'false' end)
from (select t.*,
             lag(val, 1) over (order by id) as val_1,
             lag(val, 2) over (order by id) as val_2,
             lag(val, 3) over (order by id) as val_3,
             lead(val, 1) over (order by id) as val_next_1
      from t
     ) t
where (val_3 <= 20 or val_3 is null) and
      (val_2 > 20 and val_1 > 20 and val > 20) and
      (val_next_1 <= 20 or val_next_1 is null);

这有点棘手,因为值可以在行的开头或结尾。

【讨论】:

  • 如果有四个连续值大于阈值,则不会返回false
  • 谢谢戈登。我会试试这个。
  • 有趣的部分是声明式设置34阈值,否则我也会使用LAGLEAD
  • 是否可以为任意数量的连续记录而不是 3 条配置此项?
  • @Nagesh 。 . .是的,但您可能应该问一个新问题。非常清楚您正在使用的数据库以及序列应该多长。
猜你喜欢
  • 2021-06-17
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2021-03-24
  • 1970-01-01
  • 1970-01-01
  • 2016-11-01
相关资源
最近更新 更多