【问题标题】:Boolean Operation on Pandas Dataframe Column Average - this has got to be simplePandas Dataframe 列平均值的布尔运算 - 这必须很简单
【发布时间】:2020-05-12 07:27:14
【问题描述】:

我有 pandas 数据框:

import pandas as pd
import numpy as np

df = pd.DataFrame({'A':[1,5,3],
                  'B': [4,2,6]})

df['avg'] = df.mean(axis=1)
df[df<df['avg']]

我想保留数据框中低于 df['avg'] 列平均值的所有值。当我执行以下操作时,我将返回所有 NAN

df[df<df['avg']]

如果我设置了一个 for 循环,我可以得到我想要的布尔值。

col_names = ['A', 'B']
for colname in col_names:
    df[colname] = df[colname]<df['avg']

我正在搜索的内容如下所示:

df_desired = pd.DataFrame({
    'A':[1,np.nan,3],
    'B':[np.nan,2,np.nan],
    'avg' :[2.5, 3.5, 4.5]
})

我该怎么做?必须有一个 Pythonic 的方式来做到这一点。

【问题讨论】:

    标签: python pandas


    【解决方案1】:

    您可以在此处使用.mask(..) [pandas-doc]。我们可以使用 numpy 的广播来生成一个高于给定平均值的布尔数组:

    >>> df.mask(df.values > df['avg'].values[:,None])
         A    B  avg
    0  1.0  NaN  2.5
    1  NaN  2.0  3.5
    2  3.0  NaN  4.5
    

    【讨论】:

    • 谢谢。我仍然有一些工作要了解你做了什么,但我很高兴你给了我我需要的东西。谢谢你。通过将“.values”添加到数据框(df.values)中,您创建了一个 numpy 数组。通过将其添加到 df['avg].values 您创建了第二个 numpy 数组。通过添加 .values[:,None] 你做了什么?我注意到 None 对应于一列。
    • 请注意,现在不鼓励使用.values,而是使用.to_numpy()。它在这里的使用实际上是完全没有必要的。
    • @getaglow 你通过添加 .values[:,None] 做了什么?我注意到 None 对应于一列。我不是写答案的人,但你可以找到更多here
    【解决方案2】:

    我认为这比公认的解决方案更惯用、更清晰:

    import numpy as np
    import pandas as pd
    
    df = pd.DataFrame({'A': [1, 5, 3],
                       'B': [4, 2, 6]})
    
    print(df)
    
    df['avg'] = df.mean(axis=1)
    
    print(df)
    
    df[df[['A', 'B']].ge(df['avg'], axis=0)] = np.NaN
    
    print(df)
    

    输出:

       A  B
    0  1  4
    1  5  2
    2  3  6
       A  B  avg
    0  1  4  2.5
    1  5  2  3.5
    2  3  6  4.5
         A    B  avg
    0  1.0  NaN  2.5
    1  NaN  2.0  3.5
    2  3.0  NaN  4.5
    

    说到公认的解决方案,不再建议使用.values 将 Pandas DataFrame 或 Series 转换为 NumPy 数组。幸运的是,我们实际上根本不需要在这里使用它:

    df.mask(df > df['avg'][:, np.newaxis])
    

    【讨论】:

      猜你喜欢
      • 2018-11-25
      • 2021-08-01
      • 2017-07-02
      • 2013-09-12
      • 2021-05-05
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多