【发布时间】:2023-03-03 12:35:02
【问题描述】:
我以 [时间戳,位置] 的格式创建了大量的日常活动日志。例如
[{1365650747255, 'san francisco'},
{1365650743354, 'san francisco'},
{1365650741349, 'san mateo'},
{1365650756324, 'mountain view'},
...
{1365650813354, 'menlo park'}]
我可以通过哪些方式挖掘这些信息以找到类似的模式
- “周日晚上,我可能在旧金山附近”
- “周一下午我可能在门洛帕克附近”
问题是
- 数据集非常庞大。
- 似乎无法通过对时间戳值应用函数来判断日期/时间/日期(除非我们将时间戳解码为日期时间值)。
【问题讨论】:
-
时间戳的来源是什么?它需要解释它
-
@e4e5f4 你能详细说明一下吗?为简单起见,让我们假设,它们是我的foursquare/facebook签到的时间戳。或者我的带有位置的推文。
-
是的,但是参考是什么?滴答计数是从什么时候开始的?起源是什么?
-
@e4e5f4 它是 unix 时间戳(毫秒精度)
-
@Codevalley 你所说的巨大是什么意思?多大?多少行/列?为什么不能只创建转换后的日期,将时间戳四舍五入到所需的时间窗口(例如 4 小时)并将其存储为日期时间?
标签: python machine-learning pattern-matching data-mining statistics