如何区分回归分析中的分类变量和有序变量？答案

【问题标题】：How to differentiate categorical and ordinal variables in regression analysis?如何区分回归分析中的分类变量和有序变量？
【发布时间】：2016-03-12 04:19:51
【问题描述】：

我正在对与房屋有关的数据进行线性回归分析。目前我有 23 个功能。其中一些显然是序数（例如年份、房间数、层数）。有些特征是分类的，我对在编码为数字格式时如何处理它们感到困惑。我对使用什么编码方法犹豫不决：单热编码（用于分类）或只是序数映射（用于序数数据）。我知道颜色、性别、地区、国籍等分类特征显然必须使用虚拟编码进行编码。同样清楚的是，像条件这样的分类特征，可能值为 'old'、'renovated'、'new' 可以排序和编码为 1, 2, 3分别。

但我不确定如何编码不太明显的特征。该特征的性质不会立即引起注意，并且在某种程度上可以同时归因于序数数据和分类数据。我们来看例子：

Strongly Agree 
Agree 
Undecided 
Disagree 
Strongly Disagree

这是来自问题： https://stats.stackexchange.com/questions/58818/can-ordinal-variables-be-used-as-predictor-for-linear-multiple-regression-analys

作者决定按顺序对它们进行编码。有些人建议使用虚拟编码。不清楚。
另一个例子（材料）：

Plastic
Wood    
Metal
Armored

在我看来，这些数据可以按顺序排列和编码为 1、2、3、4。简单装甲比金属贵。金属比木头贵等。但是我在 youtube 上看到了一个讲座，据说不会因为您看到一些上升或下降模式而按顺序对特征进行编码。这些模式可能是错觉和错误的。

另一个例子（互联网连接类型）：

DSL
ADSL
SDSL
Cable
Broadband

其中一些更快，一些比其他慢，但没有“明确的顺序”。如何处理这种“不清楚”的分类数据。

如何区分分类数据和有序数据？或者我只需要通常只对非常简单的序数变量（例如“条件”）进行编码，并将其余不清楚的变量保留为分类和虚拟编码。

【问题讨论】：

标签： encoding machine-learning regression linear-regression categorical-data

【解决方案1】：

我会说序数变量是您可以订购的东西，并且在您的值集之外回答仍然有意义。很好的例子是“同意”/“不同意”。你可以将它们映射到值 1-5，即使你得到 2.3，你也知道这意味着什么：它不仅仅是“同意”。但它对“塑料”/“木头”完全没有意义——这是绝对的。关于互联网连接类型。这取决于。如果我们谈论的是速度并且您可以订购这些连接，那么将其视为序数可能是有意义的。但如果我们在谈论例如调制解调器类型的流行度不仅仅是一个分类变量

【讨论】：