【发布时间】:2016-03-04 14:27:59
【问题描述】:
回归算法似乎正在处理以数字表示的特征。 例如:
此数据集不包含分类特征/变量。很清楚如何对这些数据进行回归并预测价格。
但现在我想对包含分类特征的数据进行回归分析:
有5个特征:District、Condition、Material、Security、Type
如何对这些数据进行回归?我是否必须手动将所有字符串/分类数据转换为数字?我的意思是如果我必须创建一些编码规则并根据这些规则将所有数据转换为数值。
是否有任何简单的方法可以将字符串数据转换为数字,而无需手动创建自己的编码规则?也许 Python 中有一些库可以用于此目的?是否存在由于“错误编码”而导致回归模型不正确的风险?
【问题讨论】:
-
快速注释指向 2 个用于分类变量编码的开源 Python 包:类别编码器 (contrib.scikit-learn.org/category_encoders) 和特征引擎 (feature-engine.readthedocs.io/en/latest/index.html)
标签: python machine-learning regression linear-regression feature-selection