【问题标题】:Is it possible for MySQL to calculate average time from a time series?MySQL是否可以根据时间序列计算平均时间?
【发布时间】:2019-03-04 20:00:10
【问题描述】:

假设您有一个可以跟踪页面浏览量的通用分析工具,并且您想要获取每个用户的第一个事件和最后一个事件之间的总时间。是否可以使用窗口功能?

这是示例数据:

CREATE TABLE `user_events` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `user` varchar(45) DEFAULT NULL,
  `page` varchar(45) DEFAULT NULL,
  `ts` timestamp NULL DEFAULT NULL,
  PRIMARY KEY (`id`)
);
INSERT INTO `user_events` VALUES 
  (1,'user1','home','2019-03-03 10:00:00'),
  (2,'user2','home','2019-03-03 10:00:11'),
  (3,'user1','about','2019-03-03 10:00:23'),
  (4,'user1','contact','2019-03-03 10:00:47'),
  (5,'user2','services','2019-03-03 10:01:04'),
  (6,'user2','contact','2019-03-03 10:01:15'),
  (7,'user1','home','2019-03-03 18:20:34'),
  (8,'user1','services','2019-03-03 18:20:37');

这让我们开始:

mysql> select * from user_events;
+----+-------+----------+---------------------+
| id | user  | page     | ts                  |
+----+-------+----------+---------------------+
|  1 | user1 | home     | 2019-03-03 10:00:00 |
|  2 | user2 | home     | 2019-03-03 10:00:11 |
|  3 | user1 | about    | 2019-03-03 10:00:23 |
|  4 | user1 | contact  | 2019-03-03 10:00:47 |
|  5 | user2 | services | 2019-03-03 10:01:04 |
|  6 | user2 | contact  | 2019-03-03 10:01:15 |
|  7 | user1 | home     | 2019-03-03 18:20:34 |
|  8 | user1 | services | 2019-03-03 18:20:37 |
+----+-------+----------+---------------------+

这一切完成后我们预期的结果如下:

  • user1 = 47 秒
  • user2 = 64 秒
  • user1 session2 = 3 秒

这会给我们平均 38 秒

有这个博客似乎使用 Postgres 作为示例 https://blog.jooq.org/2015/05/12/use-this-neat-window-function-trick-to-calculate-time-differences-in-a-time-series/ 博客的最后一部分提到使用“重置”来启动计时器,但是我在将 Postgres 转换为 MySQL 时遇到了困难

我从https://modern-sql.com/feature/filter遵循了 FILTER 的替代方案

mysql> SELECT
    ->   COUNT(CASE WHEN page = 'home' THEN 1 END)  OVER (ORDER BY ts) c,
    ->   ts
    -> FROM user_events;
+---+---------------------+
| c | ts                  |
+---+---------------------+
| 1 | 2019-03-03 10:00:00 |
| 2 | 2019-03-03 10:00:11 |
| 2 | 2019-03-03 10:00:23 |
| 2 | 2019-03-03 10:00:47 |
| 2 | 2019-03-03 10:01:04 |
| 2 | 2019-03-03 10:01:15 |
| 3 | 2019-03-03 18:20:34 |
| 3 | 2019-03-03 18:20:37 |
+---+---------------------+

但我显然需要某种分组,以便第二次用户主页访问不会重置第一次。

我也尝试了一个简单的最小值/最大值

mysql> select TIMEDIFF(max(ts),min(ts)) as session_length, user
    -> from user_events
    -> group by user;
+----------------+-------+
| session_length | user  |
+----------------+-------+
| 08:20:37       | user1 |
| 00:01:04       | user2 |
+----------------+-------+

但我再次需要重置,这样 user1 的 2 个会话就不会被分组。

我是否可以尝试对给定数据进行处理,或者我是否需要另一个“session_id”(或类似的)列来帮助查询

【问题讨论】:

  • 您将什么定义为每个用户的“第一个和最后一个事件”?您的问题并不清楚这一点,我可以想象多种定义方式。
  • ...换句话说,定义“会话”
  • 就本示例而言,会话在您访问“主页”页面时开始。 “主页”页面的前一个事件将成为最后一个事件。我意识到在现实世界中,用户可以在任何页面上开始,但是对于我们的应用程序,无论他们在应用程序中的哪个位置开始,我们总是有一个“开始”事件,我将其等同于“主页”页面。 @TimBiegeleisen

标签: mysql analytics


【解决方案1】:

不幸的是,您猜对了,您需要在数据模型中添加一个 session_id 字段,以便准确识别每个用户实际上是唯一的。解决这个问题的唯一方法是设置一个默认计时器值,超过该值时会认为用户创建了一个新会话,但这非常麻烦,我不建议以任何方式这样做,因为它会带来其他问题并且计算会成倍增加更难处理。

用户 1 在您的示例中出现了两次,因此很难从数据模型中获得您想要的结果。任何人在没有您的结果的情况下查看此内容都会说 user1 在系统上花费了 8 小时 20 分 30 秒。

如果将 session_id 插入到 user_events 表中,就可以实现您的目标。 然后,您可以通过执行如下查询来找到每个用户会话所花费的时间(以秒为单位)

    SELECT session_id, max(ts) as end_of_session, min(ts) as start_of_session, 
    (UNIX_TIMESTAMP(max(ts)) - UNIX_TIMESTAMP(min(ts))) as delta_ts
    FROM user_events
    GROUP BY session_id
    ORDER BY session_id

然后您可以将其包装在一个调用中,该调用通过如下查询计算出所有唯一用户会话的平均持续时间

SELECT avg(delta_ts)
FROM
(    
    SELECT session_id, max(ts) as end_of_session, min(ts) as start_of_session, 
    (UNIX_TIMESTAMP(max(ts)) - UNIX_TIMESTAMP(min(ts))) as delta_ts
    FROM user_events
    GROUP BY session_id
    ORDER BY session_id
)q_inner

如果将 session_id 字段添加到模型中,此示例将按预期工作。

CREATE TABLE `user_events` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `session_id` varchar(10) NOT NULL,
  `user` varchar(45) DEFAULT NULL,
  `page` varchar(45) DEFAULT NULL,
  `ts` timestamp NULL DEFAULT NULL,
  PRIMARY KEY (`id`)
);
INSERT INTO `user_events` VALUES 
  (1,'z1a64','user1','home','2019-03-03 10:00:00'),
  (2,'wopa1','user2','home','2019-03-03 10:00:11'),
  (3,'z1a64','user1','about','2019-03-03 10:00:23'),
  (4,'z1a64','user1','contact','2019-03-03 10:00:47'),
  (5,'wopa1','user2','services','2019-03-03 10:01:04'),
  (6,'wopa1','user2','contact','2019-03-03 10:01:15'),
  (7,'n3dhe','user1','home','2019-03-03 18:20:34'),
  (8,'n3dhe','user1','services','2019-03-03 18:20:37');


SELECT avg(delta_ts)
FROM
(    
    SELECT session_id, max(ts) as end_of_session, min(ts) as start_of_session, 
    (UNIX_TIMESTAMP(max(ts)) - UNIX_TIMESTAMP(min(ts))) as delta_ts
    FROM user_events
    GROUP BY session_id
    ORDER BY session_id
)q_inner

【讨论】:

    猜你喜欢
    • 2018-02-28
    • 1970-01-01
    • 2018-06-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-03-01
    • 2017-03-25
    相关资源
    最近更新 更多