【发布时间】:2016-03-12 04:19:51
【问题描述】:
我正在对与房屋有关的数据进行线性回归分析。目前我有 23 个功能。其中一些显然是序数(例如年份、房间数、层数)。有些特征是分类的,我对在编码为数字格式时如何处理它们感到困惑。我对使用什么编码方法犹豫不决:单热编码(用于分类)或只是序数映射(用于序数数据)。 我知道颜色、性别、地区、国籍等分类特征显然必须使用虚拟编码进行编码。同样清楚的是,像条件这样的分类特征,可能值为 'old'、'renovated'、'new' 可以排序和编码为 1, 2, 3分别。
但我不确定如何编码不太明显的特征。该特征的性质不会立即引起注意,并且在某种程度上可以同时归因于序数数据和分类数据。我们来看例子:
Strongly Agree
Agree
Undecided
Disagree
Strongly Disagree
作者决定按顺序对它们进行编码。有些人建议使用虚拟编码。不清楚。
另一个例子(材料):
Plastic
Wood
Metal
Armored
在我看来,这些数据可以按顺序排列和编码为 1、2、3、4。简单装甲比金属贵。金属比木头贵等。但是我在 youtube 上看到了一个讲座,据说不会因为您看到一些上升或下降模式而按顺序对特征进行编码。这些模式可能是错觉和错误的。
另一个例子(互联网连接类型):
DSL
ADSL
SDSL
Cable
Broadband
其中一些更快,一些比其他慢,但没有“明确的顺序”。如何处理这种“不清楚”的分类数据。
如何区分分类数据和有序数据?或者我只需要通常只对非常简单的序数变量(例如“条件”)进行编码,并将其余不清楚的变量保留为分类和虚拟编码。
【问题讨论】:
标签: encoding machine-learning regression linear-regression categorical-data