【发布时间】:2015-06-06 13:53:33
【问题描述】:
我有一个包含 83 列和 4000 行的 pandas 数据框。我打算将数据用于逻辑回归,因此希望将我的列缩小到缺失数据最少的列。
为此,我正在考虑根据 NaN 观察的频率对它们进行排名。我尝试了一些类似的东西
econ_balance["BG.GSR.NFSV.GD.ZS"].describe()
econ_balance["BG.GSR.NFSV.GD.ZS"].value_counts
econ_balance["BG.GSR.NFSV.GD.ZS"]["NaN"]
econ_balance["BG.GSR.NFSV.GD.ZS"][NaN]
这些似乎都不起作用。我总是尝试用谷歌搜索,看看这个问题之前是否已经回答过,但没有运气。
提前感谢您的帮助
乔什
【问题讨论】:
-
df.isnull().sum() stackoverflow.com/questions/26266362/…
-
天哪,我突然获得了立即重复的关闭投票