如何根据列中值的差异拆分熊猫数据框答案

【问题标题】：How to split pandas dataframe based on difference of values in a column如何根据列中值的差异拆分熊猫数据框
【发布时间】：2015-07-21 15:41:34
【问题描述】：

我有一个包含几列的 pandas 数据框，其中一列称为“strike”。如果罢工列的一行的值大于 100 加上罢工列的前一行，我想在那时将数据框分成两个（它们仍然具有相同的列名）等等。我对 pandas 很陌生，在查找了一些函数后，我想不出一个简单的方法来做到这一点。

一个例子：以下数据框：

strike crv vol
1400   w   a 
1450   x   b
1600   y   c
1800   z   d

将是 3 个数据帧：

strike crv vol
1400   w   a 
1450   x   b

strike crv vol
1600   y   c

strike crv vol
1800   z   d

谢谢！

【问题讨论】：

你的意思是df[(df['strike'] > 100) & (df['strike'].shift() > 100)].index[0]？

标签： python pandas split dataframe

【解决方案1】：

IIUC，这是 compare-cumsum-groupby 模式的又一个例子：

>>> df
   strike crv vol
0    1400   w   a
1    1450   x   b
2    1600   y   c
3    1800   z   d
>>> group_ids = (df["strike"] > (df["strike"].shift() + 100)).cumsum()
>>> grouped = df.groupby(group_ids)
>>> for k,g in grouped:
...     print("-----")
...     print(g)
...     
-----
   strike crv vol
0    1400   w   a
1    1450   x   b
-----
   strike crv vol
2    1600   y   c
-----
   strike crv vol
3    1800   z   d

如果您愿意，可以将其放入列表或字典中：

>>> group_list = [g for k,g in grouped]
>>> group_list[2]
   strike crv vol
3    1800   z   d
>>> group_dict = dict(list(grouped))
>>> group_dict[1]
   strike crv vol
2    1600   y   c

之所以可行，是因为我们利用 True == 1 和 False == 0 这一事实来构建组 ID：

>>> df["strike"] > (df["strike"].shift() + 100)
0    False
1    False
2     True
3     True
Name: strike, dtype: bool
>>> (df["strike"] > (df["strike"].shift() + 100)).cumsum()
0    0
1    0
2    1
3    2
Name: strike, dtype: int64

然后我们可以对这些值进行分组。

【讨论】：

太棒了，正是我想要的。谢谢。
@user3078608：我通常不会提及它，但看起来您从未接受过答案。你熟悉这个过程吗？
@user3078608：不用担心。看起来还有其他一些人在之前的问题中帮助过你，他们也可以使用一些接受（总是很高兴得到迟到的接受！）