具有文本特征的数据集的逻辑回归答案

【问题标题】：Logistic regression on a dataset with text features具有文本特征的数据集的逻辑回归
【发布时间】：2019-01-21 19:54:39
【问题描述】：

我有一个类似这样的数据集：

category 1  category 2  prediction

    X   a   1
    Y   b   0
    Z   b   1
    X   a   1
    Y   a   0
    Z   b   0
    X   b   1
    Y   f   1
    Z   d   1

假设这是三列。我想提一下，第 1 列和第 2 列是文本特征，而不是数字数据。我的输入数据将在category 1 中包含 15-20 种不同的类型。 category 1 中的每个此类类型都可以在 category 2 中具有一个类型。例如。 X 可以有两次或三次a 类型的条目和两次b 类型的条目。第三列是输出。我想在这样的数据集上训练一个模型，最后在模型训练完成后，我想通过任何一个category 1 & category 2，例如：X & a - 这应该给我一个预测输出1 或 0。我打算为此目的使用逻辑回归。

问题：

既然我有文本数据，我应该使用假人并为每种类型创建一个列吗？（例如，既然我有X、Y、Z，我应该创建三个不同的列并分配1 或0。
我可以为此使用逻辑回归还是它不适合我的应用程序？（我更希望得到预测1 的概率）

任何建议都会有所帮助。

【问题讨论】：

“文本数据”意味着像电子邮件这样的数据——我认为你的意思是你有“分类数据”。只要您的分类数据属于 factor 类，大多数 R 模型函数都会为您创建虚拟变量。
是的，抱歉，我的意思是单词，例如说这些是运动、棒球、排球、冰球等的名称。你的意思是说这些带有单词的列可以作为特征传递逻辑回归？

标签： machine-learning logistic-regression feature-engineering

【解决方案1】：

Logistic regression fits如果您的分类基于每个类别的日志赔率。对于二进制分类，从可比方法的结果中没有太大差异。

是的，您应该使用您的“假人”进行分类数据。这被称为“单热编码”，来自电气设计技术，其中在任何给定的时间，簇的恰好一线是“热”（具有电流）。对于您发布的数据，您将为类别1的三列，以及用于类别2的至少四列（A，B，D，F）。

【讨论】：

是的，如果在r中使用内置glm方法进行逻辑回归，则只要您的数据为factor span>，虚拟编码将是自动的