【发布时间】:2020-04-18 04:15:45
【问题描述】:
我有一个如下图所示的数据框
Price Category Area
20 Red 100
30 Red 150
10 Red 50
25 Red NaN
30 Red NaN
10 Green 30
20 Green 60
30 Green 90
10 Green 30
40 Green NaN
50 Green NaN
根据以上,我想分别估算红色和绿色每个类别的面积和价格之间的关系。
例如这里的红色:
Area = 5 * Price
同样适用于格林:
Area = 3 * Price
我想在 pandas 和 scikit-learn 中实现它:
步骤 1. 估计每个类别的面积和价格之间的关系。 2. 根据关系估算缺失值。
我是 python 和编码方面的新手。
Expected output
Price Category Area
20 Red 100
30 Red 150
10 Red 50
25 Red 125
30 Red 150
10 Green 30
20 Green 60
30 Green 90
10 Green 30
40 Green 120
50 Green 150
【问题讨论】:
-
如何保存红色和绿色的因子?
-
@anky_91 不太清楚,其实我也不怎么通过编码来解决这个问题。。我们可以过滤每个类别的数据框并估计因子吗。
标签: python pandas scikit-learn sklearn-pandas