使用 One Hot Encoding 时的 Logistic 回归方程答案

【问题标题】：Equation for Logistic regression while using One Hot Encoding使用 One Hot Encoding 时的 Logistic 回归方程
【发布时间】：2016-02-12 06:45:43
【问题描述】：

当特征是数字时，如下所示：

假设sigmoid(transpose(theta).X))中的特征矩阵X将是：

但是，当我们这里还有 1 个特征 - 颜色（可以是红色、蓝色或绿色）时，在执行 One Hot Encoding 时，每个特征将是一个矢量，例如：[1 0 0] [0 1 0] 和[0 0 1].

我无法弄清楚如何将这些 One Hot Encoding 向量合并到已经存在的特征矩阵中，然后在假设方程中使用它

【问题讨论】：

如果我没记错的话，这很简单。您只需在特征矩阵中再添加三个特征，命名为 red、blue 和 green。你能具体说明你的问题吗？
我已经猜到了，但我确定这是否是最合适的方式..

标签： machine-learning linear-regression logistic-regression

【解决方案1】：

是的，您应该从数据集中删除所有未编码的分类特征，对它们进行编码并从一种热编码中添加它们的编码值，当然您还必须将相应的权重添加到 theta 中。然后你可以在这个新数据集上拟合你的新模型

【讨论】：

更重要的一点是永远不要在这里留下未经预处理的数据。如果您添加 one-hot-encoding 特征，那么像“正方形大小”这样大几个数量级的特征将严重影响您的模型。记住标准化。
@lejlot 另外，如果我觉得分类特征 A 比分类特征 B 重要得多，那么将 B 作为 [0 1 0 ..... 0] 并将 A 作为[0 0 8 0 ....0] 对于 A 和 B 的特定值？
你如何决定“多少”是“多少”？手动加权特征很少是一个好主意，因为它需要对问题和稍后使用的模型都有非常好的了解（因为您必须了解模型如何处理“乘法”）。所以总的来说 - 最好标准化并将其留给 ML
@lejlot 好的。我是机器学习的新手。标准化是指始终具有 [0 1 0..0] 之类的特征向量或可应用于逻辑回归的特定标准化方法？
@SaurabhVerma，通过标准化，他指的是功能的缩放。看这里en.wikipedia.org/wiki/Feature_scaling