【发布时间】:2019-09-30 22:32:53
【问题描述】:
假设我正在销售相互补充的商品。 而且我试图找出商品销售之间的相关性,但在不同的销售日期。
(因为我认为 item01 在 d 日的销售额可能会影响 item02~99 在 d+30 上的销售额)
dataframe 看起来像这样。
. Item01 Item02 Item03 Item04 ...
day1 120 130 140 200 ...
day2 200 200 150 119 ...
day3 162 110 180 220 ...
day4 170 130 160 190 ...
... ... ... ... ... ...
我学会了如何使用 pandas 数据框的.corr()
但我想找到跨时间相关性。
我应该自己做回归函数吗?
非常感谢
df_sales = pd.DataFrame(dic_sales)
corr = df_sales.corr(method = 'pearson')
corr val
. item01 Item02 ...
item01(d+30) 0.75 0.46 ...
item02(d+30) 0.44 0.84 ...
... ... ...
【问题讨论】:
-
这称为滞后相关
-
例如相关性滞后 n 天
-
显然,您正在寻找时间序列的自相关pandas.pydata.org/pandas-docs/stable/reference/api/…
-
@rafaelc:然后是 滞后自相关,例如“找到具有峰值自相关的滞后”
-
@smci 滞后自相关 是多余的。自相关意味着已经存在滞后
标签: python pandas correlation lag