【发布时间】:2018-07-06 15:04:04
【问题描述】:
假设我有一个数据框,其中有一列 Quality,值 [Poor, Average, Good, Excellent]。
框架有 120 个值,其中 20 个是 NaN,其余 100 个有 20、30、40、10 个 [Poor, Average, Good, Excellent]。
是否有任何简单的方法可以使用来自[Poor, Average, Good, Excellent] 的值替换 20 个 NaN 行,从而使整个框架的比例保持在 20% 差、30% 平均、40% 好和 10% 优,使用 Python ,熊猫和 NumPy?
想法是在填充NaN后保留原始比例,而不管数据集的大小。
【问题讨论】:
-
您需要它是完全相同的百分比,还是只是统计上的相同?如果后者没问题,您可以使用
np.random_choice生成一个列表,其长度由空值的# 给出,值的分布由您的非空值给出。 -
@ALollz,你能用代码示例说明一下吗?总的来说,我对 Pandas 和 Python 有点陌生。
标签: python pandas numpy dataframe