【发布时间】:2022-08-11 15:32:15
【问题描述】:
我有一个包含多个日期值的数据框
用于我的时间序列分析。我想他们在一天中的不同时间取值,并将其写为日期。
因此,我正在考虑为这些值生成随机时间,例如 2016 年 9 月 9 日的第一个值将在晚上 9 点,第二个在下午 3 点,第三个在上午 9 点,第四个在凌晨 3 点(因为数据越来越老)。
最佳做法是什么?
-
所有日期都有 4 次出现或它的变量(如 \'9/7/2016\')?
-
所有日期都有 4 次出现。他们每一个人。所以我认为他们以相当规则的顺序测量它
-
最佳实践可能在一定程度上取决于数据收集过程的细节。如果假设数据已定期收集(也在凌晨 3 点的夜间)是现实的,那么等距时间网格似乎是一个很好的解决方案。例如,如果在测量条件良好的情况下每天在气象站收集四次数据,那么测量时间可能会因天而异,最好对每天的观察结果进行平均。生成的数据系列将采用每日频率。可能还有更多场景……
-
@wel 您的数据源是否提供有关如何/何时测量这些雾度水平的任何信息?如果不是,那么确实相隔 6 小时似乎是最有可能的。是的,在同一天内对所有观察进行平均的“缺点”是丢失了所有日内变化(或者说高频信息)。如果您有兴趣预测下周典型日子的每日平均雾度水平,那么这可能不是问题。如果您对明天下午 3 点的雾度水平感兴趣,那么这些日内变化当然是相关的。
-
@HannoReuvers 没有数据解释。他们只是说“日期 - 日期”。由于这是一场 kaggle 比赛,我刚刚检查了 test.csv 文件,似乎他们只是希望我们仅按日期预测级别。所以现在我在想,也许平均是要走的路?因为如果我每天取 4 个不同的值,我最终会提交什么值?
标签: pandas statistics time-series statsmodels kaggle