【发布时间】:2017-09-09 07:07:29
【问题描述】:
我有一个 csv 文件,我正在准备使用不同的机器学习算法对其数据进行训练,因此我用该列的平均值替换了数字缺失数据,但是如何处理缺失的分类数据,我应该替换他们最频繁的元素?以及为什么在 python 中使用 pandas 最简单的方法。
代码:
dataset = pd.read_csv('doc.csv')
X = dataset.iloc[:, [2, 4, 5, 6, 7, 9,10 ,11]].values
y = dataset.iloc[:, -1].values
第 2 行包含分类数据。
第一行值:
[3, 'S', 22.0, 1, 0, 7.25, 107722, 2]
【问题讨论】:
标签: python pandas machine-learning