【问题标题】:Equation for Logistic regression while using One Hot Encoding使用 One Hot Encoding 时的 Logistic 回归方程
【发布时间】:2016-02-12 06:45:43
【问题描述】:

当特征是数字时,如下所示:

假设sigmoid(transpose(theta).X))中的特征矩阵X将是:

但是,当我们这里还有 1 个特征 - 颜色(可以是红色、蓝色或绿色)时,在执行 One Hot Encoding 时,每个特征将是一个矢量,例如:[1 0 0] [0 1 0][0 0 1].

我无法弄清楚如何将这些 One Hot Encoding 向量合并到已经存在的特征矩阵中,然后在假设方程中使用它

【问题讨论】:

  • 如果我没记错的话,这很简单。您只需在特征矩阵中再添加三个特征,命名为 redbluegreen。你能具体说明你的问题吗?
  • 我已经猜到了,但我确定这是否是最合适的方式..

标签: machine-learning linear-regression logistic-regression


【解决方案1】:

是的,您应该从数据集中删除所有未编码的分类特征,对它们进行编码并从一种热编码中添加它们的编码值,当然您还必须将相应的权重添加到 theta 中。然后你可以在这个新数据集上拟合你的新模型

【讨论】:

  • 更重要的一点是永远不要在这里留下未经预处理的数据。如果您添加 one-hot-encoding 特征,那么像“正方形大小”这样大几个数量级的特征将严重影响您的模型。记住标准化。
  • @lejlot 另外,如果我觉得分类特征 A 比分类特征 B 重要得多,那么将 B 作为 [0 1 0 ..... 0] 并将 A 作为[0 0 8 0 ....0] 对于 A 和 B 的特定值?
  • 你如何决定“多少”是“多少”?手动加权特征很少是一个好主意,因为它需要对问题和稍后使用的模型都有非常好的了解(因为您必须了解模型如何处理“乘法”)。所以总的来说 - 最好标准化并将其留给 ML
  • @lejlot 好的。我是机器学习的新手。标准化是指始终具有 [0 1 0..0] 之类的特征向量或可应用于逻辑回归的特定标准化方法?
  • @SaurabhVerma,通过标准化,他指的是功能的缩放。看这里en.wikipedia.org/wiki/Feature_scaling
猜你喜欢
  • 1970-01-01
  • 2021-11-02
  • 1970-01-01
  • 1970-01-01
  • 2017-11-02
  • 2020-01-21
  • 2021-04-12
  • 2016-03-02
  • 1970-01-01
相关资源
最近更新 更多