【发布时间】:2017-08-22 14:45:11
【问题描述】:
我有一个数据框,其中每一行都代表一个日期,其中在数据库中记录了许多事件。
每个事件都有一个相关的日期,例如,在 2017-02-03 记录的事件可能属于 2017-02-02(这意味着它是在事件发生后的第二天记录的)。
我正在尝试在 distplot 中可视化每一列的分布,以了解记录事件的时间与相关日期之间的距离(“人们是否在同一天记录事件,当天之后,甚至之后?”)。
到目前为止,我已经制作了一个迭代每一列并将其绘制到 seaborn distplot 中的函数。
def plot(dates):
plt.figure(figsize=(45,25))
for date in dates:
sns.distplot(df[date], kde=False, bins=len(dates))
return
情节如下所示:
但是,我不明白如何解释 x 轴上的值。
它显示的范围是 0 - 3500,这是什么意思?
还有其他更好的可视化方法吗?
【问题讨论】:
-
你能更好地解释数据框实际包含的内容吗?行中的日期是什么意思,列中的日期是什么意思,数据框中的数字是什么?
-
@ImportanceOfBeingErnest 行索引是记录事件的日期,列标题中的日期是事件发生的日期。例如,在 2017 年 2 月 2 日,前一天 (2017 年 2 月 1 日) 记录了 1092 个事件,同一天 (2017 年 2 月 2 日) 发生了 3136 个事件。行的总和将为您提供当天记录的总事件,而列的总和将提供当天发生的总事件。
-
我认为这里令人困惑的是,显然您可以在实际发生之前记录事件,例如2017-02-02 记录了 20 个事件,这些事件仅在 8 天后(2017-02-10)发生。
-
是的,没错。这些事件基本上是“会议”,因此人们可以在它们发生之前记录它们,即使这不是“正确”的过程。