【发布时间】:2019-10-21 10:15:06
【问题描述】:
假设我有这种数据框:
Data: Lat Long Postal Code
0 41 32 01556
1 32 31 01023
2 31 33 01023
3 NaN NaN 01023
4 33 42 01775
5 40 44 01999
如您所见,第 1、2、3 行的邮政编码相同。因此,为了填充 NaN,最好只使用这 2 行 (1,2) 的平均值。 我如何将其推广到大型数据集?
- 对于在 Lat/Long 中包含 NaN 数据的每一行,
- 查找具有相同邮政编码的其他行
- 然后计算平均值
- 并使用它来替换 NaN
【问题讨论】:
标签: python pandas numpy missing-data