【发布时间】:2017-08-24 05:20:58
【问题描述】:
我正在研究一种逻辑,通过比较先前时间和当前时间并将值存储在数据库中来查找流层 (spark) 中两个时间戳之间的连续时间差。
例如:
- 2017-08-01 11:00:00
- 2017-08-01 11:05:00
- 2017-08-01 11:07:00
因此,根据上述时间戳,我的连续差异将分别为 5 分钟(11:00:00 - 11:05:00)和 2 分钟,当我将差异相加时,我将得到 7 分钟(5+2)将是实际的时差。现在真正的挑战是当我收到延迟的时间戳时。
例如:
- 2017-08-01 11:00:00
- 2017-08-01 11:05:00
- 2017-08-01 11:07:00
- 2017-08-01 11:02:00
在这里,当我计算差异时,它将分别为 5 分钟、2 分钟、5 分钟,现在差异的总和将得到 12 分钟(5+2+5),这将大于实际时间差(7分钟)。这是错误的
请帮助我找到一种解决方法,以通过记录时间差计算来处理记录中的这个延迟时间戳。
【问题讨论】:
-
你可以按时间戳排序然后计算差异
标签: apache-spark hive timestamp spark-streaming summarization