【发布时间】:2020-08-08 03:15:40
【问题描述】:
我在 scikit-learn 中使用线性回归,我的数据集包含一些分类但数字特征。 我的意思是有一些特征,比如房子所在地区的价值,用1到7之间的整数表示:这个数字越大,房子越值钱。 我是否应该在使用 OneHotEncoder 等编码器进行线性回归之前使用数字预处理表示类别(城市区域)的特征?还是仅当类别用字符表示时才强制? 提前谢谢你..
【问题讨论】:
-
考虑如果你做one-hot编码,你的维度会增加,它会引入其他问题。解决分类变量问题的一种技术是将它们分组并计算每个组的目标变量的平均值对它们进行排序并用其在排序中的排名替换每个类别。
-
@HamedAlipour 感谢您的回复。您建议的方法似乎很有趣。你知道我在哪里可以找到这样的例子来更好地理解它吗?
-
不客气,我找不到描述这种方法的博客,但请查看brendanhasz.github.io/2019/03/04/target-encoding.html 并搜索“平均编码”
标签: python machine-learning scikit-learn linear-regression