【发布时间】:2019-01-21 19:54:39
【问题描述】:
我有一个类似这样的数据集:
category 1 category 2 prediction
X a 1
Y b 0
Z b 1
X a 1
Y a 0
Z b 0
X b 1
Y f 1
Z d 1
假设这是三列。我想提一下,第 1 列和第 2 列是文本特征,而不是数字数据。我的输入数据将在category 1 中包含 15-20 种不同的类型。 category 1 中的每个此类类型都可以在 category 2 中具有一个类型。例如。 X 可以有两次或三次a 类型的条目和两次b 类型的条目。第三列是输出。我想在这样的数据集上训练一个模型,最后在模型训练完成后,我想通过任何一个category 1 & category 2,例如:X & a - 这应该给我一个预测输出1 或 0。我打算为此目的使用逻辑回归。
问题:
既然我有文本数据,我应该使用假人并为每种类型创建一个列吗? (例如,既然我有
X、Y、Z,我应该创建三个不同的列并分配1或0。我可以为此使用逻辑回归还是它不适合我的应用程序? (我更希望得到预测
1的概率)
任何建议都会有所帮助。
【问题讨论】:
-
“文本数据”意味着像电子邮件这样的数据——我认为你的意思是你有“分类数据”。只要您的分类数据属于
factor类,大多数 R 模型函数都会为您创建虚拟变量。 -
是的,抱歉,我的意思是单词,例如说这些是运动、棒球、排球、冰球等的名称。你的意思是说这些带有单词的列可以作为特征传递逻辑回归?
标签: machine-learning logistic-regression feature-engineering