【发布时间】:2013-09-08 13:30:07
【问题描述】:
我从DataFrame 创建了一个Series,当我用计数重新采样一些数据时
像这样:H2 是DataFrame:
H3=H2[['SOLD_PRICE']]
H5=H3.resample('Q',how='count')
H6=pd.rolling_mean(H5,4)
这产生了一个如下所示的系列:
1999-03-31 SOLD_PRICE NaN
1999-06-30 SOLD_PRICE NaN
1999-09-30 SOLD_PRICE NaN
1999-12-31 SOLD_PRICE 3.00
2000-03-31 SOLD_PRICE 3.00
索引如下:
MultiIndex
[(1999-03-31 00:00:00, u'SOLD_PRICE'), (1999-06-30 00:00:00, u'SOLD_PRICE'), (1999-09-30 00:00:00, u'SOLD_PRICE'), (1999-12-31 00:00:00, u'SOLD_PRICE'),.....
我不希望第二列作为索引。理想情况下,我有一个DataFrame,第 1 列为“日期”,第 2 列为“销售”(删除索引的第二级)。我不太明白如何重新配置索引。
【问题讨论】:
-
只是一般性评论:用数字命名变量,指示您使用它们的顺序是灾难的根源。考虑
pandas没有DataFrame或Series的病理情况,它们只是被称为DataStructure1和DataStructure2,它们的所有方法都被称为method1、method2等等.给你的变量起有意义的名字将使你的代码对于第一次阅读它的其他人来说是易读的。为您的变量赋予有意义的名称还可以让您在一个月内回到您的代码并快速恢复速度。 -
好建议,再次感谢