【问题标题】:Counting events only once if an event happens more than once every X minutes如果事件每 X 分钟发生一次以上,则仅计算一次事件
【发布时间】:2019-08-15 15:04:02
【问题描述】:

每次用户在我的应用程序中启动会话时,我都会填写一个表格。但如果他们在 10 分钟内完成,我不想多次计算他们的会话。我该怎么做?

这是一个从表中返回的示例

   select
    *
    from table
    limit 100


+----------+--------+---------+----------------+
| event_ID | userid | city_id |   created_at   |
+----------+--------+---------+----------------+
|        1 | a      |       1 | 15/08/19 10:10 |
|        2 | b      |       1 | 15/08/19 10:11 |
|        3 | a      |       1 | 15/08/19 10:14 |
|        4 | a      |       1 | 15/08/19 10:25 |
|        5 | b      |       1 | 15/08/19 10:27 |
|        6 | c      |       1 | 15/08/19 10:30 |
|        7 | c      |       1 | 15/08/19 10:35 |
|        8 | d      |       1 | 15/08/19 10:40 |
|        9 | d      |       1 | 15/08/19 10:49 |
|       10 | c      |       1 | 15/08/19 10:55 |
+----------+--------+---------+----------------+

最后,我想计算每个用户的 unique event_id,前提是唯一的 event_id 由每 10 分钟发生的次数定义

所以最后应该是这样的:

+--------+------------------+
| userid | unique_event_ids |
+--------+------------------+
| a      |                2 |
| b      |                2 |
| c      |                2 |
| d      |                1 |
+--------+------------------+
+--------+------------------+
| Total  |                7 |
+--------+------------------+

关于如何开始的任何建议?

【问题讨论】:

  • 在您的示例中 d 也应该产生 2(40 和 51)
  • 你说得对,我忘了编辑。现在是正确的

标签: sql postgresql


【解决方案1】:

使用lag() 确定为用户创建上一个事件的时间。然后是一些日期过滤和聚合:

select userid, count(*)
from (select t.*,
             lag(created_at) over (partition by userid order by created_at) as prev_created_at
      from t
     ) t
where prev_created_at is null or prev_created_at < created_at - interval '10 minute'
group by userid

【讨论】:

  • 但是如果用户 'a' 有 4 个事件呢? |10:30; 10:35; 10:41; 10:42|我应该有 2 个独特的事件,但我想它只会算作一个,对吧?
  • @JoãoPauloMachado 。 . .这只算一次。我注意到您接受了在此之后 7 分钟 发布的等效答案。我想你有你的理由。
  • 我的意思是我只能选择一个,我不认为人们会那么关心它。但你是对的,你先回答了,你接受答案了吗
【解决方案2】:

我愿意:

select
  userid,
  sum(case when created_at - interval '10 minute' < prev then 0 else 1 end)
    as unique_events_ids
from (
  select
    *,
    lag(created_at) over(partition by userid order by created_at) as prev
  from t
) x
group by userid

【讨论】:

  • 但是如果用户 'a' 有 4 个事件呢? |10:30; 10:35; 10:41; 10:42|我应该有 2 个独特的事件,但我想它只会算作一个,对吧?因为它们之间的差异永远不会超过 10 分钟
  • 是的,使用这个逻辑它只会计算一次。此逻辑认为自上次交互后 10 分钟后开始“新会话”。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多