【发布时间】:2020-07-20 23:26:34
【问题描述】:
我是一名新的数据科学家,我正在尝试编写一个代码来计算数据框中每列的缺失值百分比。
这是一个可重现的代码:
my_df = pd.DataFrame([[None, 2, 3],
[4, None, 6],
[7, 8, None]])
在此代码中,每列包含 33.3% 的缺失值。我为尝试解决自己的问题而开发的代码如下:
my_df.isnull().sum() / my_df.count()
此代码输出每列缺失值的百分比为 0.5,因为正如我通过开发此代码了解到的那样,函数 count() 不考虑缺失值并且仅计算非空值。
我怎样才能克服这个问题并得到这个问题的正确答案,即每列缺失值的百分比是 0.33,而不是 0.5?
谢谢!
【问题讨论】:
-
计算索引并乘以列数
-
按列百分比:
my_df.isnull().sum() / len(my_df)。对于总数据框:my_df.isnull().sum().sum() / (len(my_df) * len(my_df.columns)). -
感谢您的双向分享!
标签: python dataframe missing-data