【发布时间】:2020-03-27 19:54:39
【问题描述】:
我有患者数据集,我想处理这些数据的缺失值,它包含数字和文本,我想根据主题 ID 处理的想法。不仅基于列替换 数据集是这样的
subject_id time heart_rate blood_pressure urine_color
1 1.10 23 60 red
1 2 40
2 3 60 80
2 4 dark yellow
我想用最常见的病人数据替换文本数据,用病人的平均值替换数字,就像这样
subject_id time heart_rate blood_pressure urine_color
1 1.10 23 60 red
1 2 23 40 red
2 3 60 80 dark yellow
2 4 60 80 dark yellow
任何人都可以在这方面提供帮助,我搜索的所有估算方法,列中最常用的方法,或整个列的统计分析
【问题讨论】:
-
如果特定 subject_id 的 heart_rate 没有值怎么办?
-
它不会进行估算,否则我将在此步骤之后进行另一个基于整列估算的步骤。但这个想法将是少量的价值
标签: python python-3.x pandas scikit-learn