【问题标题】:Logistic regression on a dataset with text features具有文本特征的数据集的逻辑回归
【发布时间】:2019-01-21 19:54:39
【问题描述】:

我有一个类似这样的数据集:

category 1  category 2  prediction

    X   a   1
    Y   b   0
    Z   b   1
    X   a   1
    Y   a   0
    Z   b   0
    X   b   1
    Y   f   1
    Z   d   1

假设这是三列。我想提一下,第 1 列和第 2 列是文本特征,而不是数字数据。我的输入数据将在category 1 中包含 15-20 种不同的类型。 category 1 中的每个此类类型都可以在 category 2 中具有一个类型。例如。 X 可以有两次或三次a 类型的条目和两次b 类型的条目。第三列是输出。我想在这样的数据集上训练一个模型,最后在模型训练完成后,我想通过任何一个category 1 & category 2,例如:X & a - 这应该给我一个预测输出10。我打算为此目的使用逻辑回归。

问题:

  1. 既然我有文本数据,我应该使用假人并为每种类型创建一个列吗? (例如,既然我有XYZ,我应该创建三个不同的列并分配10

  2. 我可以为此使用逻辑回归还是它不适合我的应用程序? (我更希望得到预测1 的概率)

任何建议都会有所帮助。

【问题讨论】:

  • “文本数据”意味着像电子邮件这样的数据——我认为你的意思是你有“分类数据”。只要您的分类数据属于 factor 类,大多数 R 模型函数都会为您创建虚拟变量。
  • 是的,抱歉,我的意思是单词,例如说这些是运动、棒球、排球、冰球等的名称。你的意思是说这些带有单词的列可以作为特征传递逻辑回归?

标签: machine-learning logistic-regression feature-engineering


【解决方案1】:

Logistic regression fits如果您的分类基于每个类别的日志赔率。对于二进制分类,从可比方法的结果中没有太大差异。

是的,您应该使用您的“假人”进行分类数据。这被称为“单热编码”,来自电气设计技术,其中在任何给定的时间,簇的恰好一线是“热”(具有电流)。对于您发布的数据,您将为类别1的三列,以及用于类别2的至少四列(A,B,D,F)。

【讨论】:

  • 是的,如果在r中使用内置glm方法进行逻辑回归,则只要您的数据为factor span>,虚拟编码将是自动的
猜你喜欢
  • 2021-11-22
  • 2019-04-12
  • 2014-01-19
  • 2021-06-10
  • 2017-08-18
  • 1970-01-01
  • 2016-05-15
  • 2016-05-17
  • 2014-08-06
相关资源
最近更新 更多