【问题标题】:Creating a Date Range from Multiple Rows Based on a Single Date基于单个日期从多行创建日期范围
【发布时间】:2020-09-27 05:40:43
【问题描述】:

我有一个包含以下字段的用户表:User_ID、Email、Used_date。

正如我们所见,用户可以在一段时间内切换到多封电子邮件。从 used_date 字段我想创建日期范围字段(Email_Start_Date 和 Email_End_Date)。它们将存储用户使用该电子邮件的时间段。

用户可以切换回旧电子邮件。在这种情况下,同一封电子邮件将有两个日期范围。

我还想填补上一封电子邮件的最后一天和当前电子邮件的开始日期之间的空白。

例如,如果用户在 2020 年 8 月 28 日至 2020 年 8 月 31 日期间使用某人@gmail.com。

他又于 2020 年 9 月 3 日切换到someone1@gmail.com。

然后在输出中有人@gmail.com 的日期范围为 2020 年 8 月 28 日 - 2020 年 9 月 2 日。

这是一个缝隙和岛屿的例子。但我不知道如何实现。

谢谢大家!

【问题讨论】:

    标签: sql amazon-redshift date-range gaps-and-islands


    【解决方案1】:

    我只建议行号和聚合的区别:

    select user_id, email, min(used_date) as email_start_date,
           lead(min(used_date)) over (partition by user_id order by min(used_date)) - interval '1 day' as email_end_date
    from (select t.*,
                 row_number() over (partition by user_id order by used_date) as seqnum,
                 row_number() over (partition by user_id, email order by used_date) as seqnum_2
          from t
         ) t
    group by user_id, email, (seqnum - seqnum_2);
    

    其实你也可以用lag()做到这一点,不用聚合:

    select user_id, email, min(used_date) as email_start_date,
           lead(used_date) over (partition by user_id order by used_date) - interval '1 day' as email_end_date
    from (select t.*,
                 lag(email) over (partition by user_id order by used_date) as prev_email
          from t
         ) t
    where prev_email is null or prev_email <> email;
    

    第二个很简单。它只保留电子邮件更改的行(或用户数据开始的行)。然后它使用lead() 来获取结束日期。

    Here 是一个 dbfiddle。

    【讨论】:

    • 非常感谢戈登。您的第一个建议效果很好。对于某些电子邮件序列,使用延迟的第二个失败。我试图弄清楚,但我没有看到任何模式。反正我现在很好。再次感谢您的帮助!
    • @Thinkpad 。 . .嗯。如果有重复的日期,它可能会表现得很奇怪。
    【解决方案2】:

    下次,将您的数据粘贴为文本,这样我们就不必再输入了...

    你是这个意思吗?我更喜欢“无限日期”而不是最后一个日期的 NULL 值 - 我更喜欢“会话 id”而不是“岛标识符”,它们通常在点击流和物联网分析中被称为...

    WITH
    indata(userid,email,used_dt) AS (
              SELECT 1,'someone@gmail.com' , DATE '2020-08-28'
    UNION ALL SELECT 1,'someone@gmail.com' , DATE '2020-08-29'
    UNION ALL SELECT 1,'someone@gmail.com' , DATE '2020-08-30'
    UNION ALL SELECT 1,'someone@gmail.com' , DATE '2020-08-31'
    UNION ALL SELECT 1,'someone1@gmail.com', DATE '2020-09-03'
    UNION ALL SELECT 1,'someone1@gmail.com', DATE '2020-09-05'
    UNION ALL SELECT 1,'someone1@gmail.com', DATE '2020-09-07'
    UNION ALL SELECT 1,'someone@gmail.com',  DATE '2020-09-09'
    UNION ALL SELECT 2,'bob@gmail.com'     , DATE '2019-07-12'
    UNION ALL SELECT 3,'alice@newmail.com' , DATE '2020-08-08'
    )
    ,
    with_change_counter AS (
    SELECT 
      userid
    , email
    , used_dt AS used_from_dt
    , CASE 
        WHEN LAG(email,1,'') OVER(
          PARTITION BY userid ORDER BY used_dt
        ) <> email 
        THEN 1
        ELSE 0 
      END AS counter
    , LEAD(used_dt,1,'9999-12-31') OVER(
        PARTITION BY userid ORDER BY used_dt
      ) AS used_until_dt
      FROM indata
    )
    ,with_sess_id AS (
      SELECT
        userid
      , email
      , used_from_dt
      , used_until_dt
      , SUM(counter) OVER(PARTITION BY userid ORDER BY used_from_dt) AS sessid
      , counter
      FROM with_change_counter
    ) 
    SELECT
      userid
    , MAX(email) AS email
    , MIN(used_from_dt) AS email_start_date
    , MAX(used_until_dt) AS email_end_date
    FROM with_sess_id
    GROUP BY
      sessid
    , userid
    ORDER BY
      userid
    , sessid
    , email
    ;
    -- out  userid |       email        | email_start_date | email_end_date 
    -- out --------+--------------------+------------------+----------------
    -- out       1 | someone@gmail.com  | 2020-08-28       | 2020-09-03
    -- out       1 | someone1@gmail.com | 2020-09-03       | 2020-09-09
    -- out       1 | someone@gmail.com  | 2020-09-09       | 9999-12-31
    -- out       2 | bob@gmail.com      | 2019-07-12       | 9999-12-31
    -- out       3 | alice@newmail.com  | 2020-08-08       | 9999-12-31
    

    【讨论】:

    • 感谢 Marcothesane 的建议。我试图从excel中过去我的数据。但它被转换为图像。下次我使用插入表语句。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2013-10-06
    • 2012-09-15
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多