【问题标题】：Rank Pandas dataframe by quantile按分位数对 Pandas 数据帧进行排名
【发布时间】：2019-10-13 09:55:25
【问题描述】：

我有一个 Pandas 数据框，其中每一列代表一个单独的属性，每一行保存特定日期的属性值：

import pandas as pd

dfstr = \
'''         AC        BO         C       CCM        CL       CRD        CT        DA        GC        GF
2010-01-19  0.844135 -0.194530 -0.231046  0.245615 -0.581238 -0.593562  0.057288  0.655903  0.823997  0.221920
2010-01-20 -0.204845 -0.225876  0.835611 -0.594950 -0.607364  0.042603  0.639168  0.816524  0.210653  0.237833
2010-01-21  0.824852 -0.216449 -0.220136  0.234343 -0.611756 -0.624060  0.028295  0.622516  0.811741  0.201083'''
df = pd.read_csv(pd.compat.StringIO(dfstr), sep='\s+')

使用rank 方法，我可以找到每个属性相对于特定日期的百分位排名：

df.rank(axis=1, pct=True)

输出：

             AC   BO    C  CCM   CL  CRD   CT   DA   GC   GF
2010-01-19  1.0  0.4  0.3  0.7  0.2  0.1  0.5  0.8  0.9  0.6
2010-01-20  0.4  0.3  1.0  0.2  0.1  0.5  0.8  0.9  0.6  0.7
2010-01-21  1.0  0.4  0.3  0.7  0.2  0.1  0.5  0.8  0.9  0.6

我想得到的是每个属性的分位数（例如四分位数、五分位数、十分位数等）排名。例如，对于五分位数排名，我想要的输出是：

             AC   BO    C  CCM   CL  CRD   CT   DA   GC   GF
2010-01-19   5    2     2  4     1   1     3    4    5    3
2010-01-20   2    2     5  1     1   3     4    5    3    4
2010-01-21   5    2     2  4     1   1     3    4    5    3

我可能遗漏了一些东西，但似乎没有内置方法可以使用 Pandas 进行这种分位数排名。获得所需输出的最简单方法是什么？

【问题讨论】：

也对单线解决方案感兴趣。虽然，一旦你获得了percentile 的排名，获得四分位数等等只是map 的另一行。
@QuangHoang 是的，这非常棘手。同样，我认为如果数据重复或丢失，可能会出现一些额外的边缘情况。

标签： python pandas percentile

【解决方案1】：

方法一`mul` & `np.ceil`

你的排名非常接近。只需将 .mul 乘以 5 即可获得所需的分位数，同时与 np.ceil 进行四舍五入：

np.ceil(df.rank(axis=1, pct=True).mul(5))

Output

             AC   BO    C  CCM   CL  CRD   CT   DA   GC   GF
2010-01-19  5.0  2.0  2.0  4.0  1.0  1.0  3.0  4.0  5.0  3.0
2010-01-20  2.0  2.0  5.0  1.0  1.0  3.0  4.0  5.0  3.0  4.0
2010-01-21  5.0  2.0  2.0  4.0  1.0  1.0  3.0  4.0  5.0  3.0

如果你想要整数，请使用astype:

np.ceil(df.rank(axis=1, pct=True).mul(5)).astype(int)

甚至更好 从熊猫版本 0.24.0 开始，我们有 nullable integer 类型：Int64。
所以我们可以使用：

np.ceil(df.rank(axis=1, pct=True).mul(5)).astype('Int64')

Output

            AC  BO  C  CCM  CL  CRD  CT  DA  GC  GF
2010-01-19   5   2  2    4   1    1   3   4   5   3
2010-01-20   2   2  5    1   1    3   4   5   3   4
2010-01-21   5   2  2    4   1    1   3   4   5   3

方法二`scipy.stats.percentileofscore`

d = df.apply(lambda x: [np.ceil(stats.percentileofscore(x, a, 'rank')*0.05) for a in x], axis=1).values

pd.DataFrame(data=np.concatenate(d).reshape(d.shape[0], len(d[0])), 
             columns=df.columns, 
             dtype='int', 
             index=df.index)

Output

            AC  BO  C  CCM  CL  CRD  CT  DA  GC  GF
2010-01-19   5   2  2    4   1    1   3   4   5   3
2010-01-20   2   2  5    1   1    3   4   5   3   4
2010-01-21   5   2  2    4   1    1   3   4   5   3

【讨论】：

啊，很好。我不知道np.ceil 只会在没有进一步强制的情况下处理数据帧。
是的，因为 DataFrame 的底层数据是数组。所以你可以对它们应用numpy 函数。
为了您的方便，我知道我曾经使用过scipy 模块中的一种方法。添加了另一种方法@tel 生成相同的输出。
整洁。我知道数据帧包装了 Numpy 数组，但我想知道 Numpy/Panda 开发人员想出了什么诡计让np.ceil 从np.ceil 返回所需的类型（即pd.DataFrame），而不是标准的np.ndarray。
另外，还有一点点挑剔：.astype(int) 在缺少数据时不起作用，因为NaN 是一个浮点数。好消息是，到目前为止，这是我在您的解决方案中发现的唯一边缘案例失败。

方法一mul & np.ceil

方法二scipy.stats.percentileofscore

方法一`mul` & `np.ceil`

方法二`scipy.stats.percentileofscore`