SVM 分类任务中 word2vec 特征的输入格式是什么？答案

【问题标题】：What is the input format for word2vec features in SVM classification task?SVM 分类任务中 word2vec 特征的输入格式是什么？
【发布时间】：2019-07-17 16:23:29
【问题描述】：

我正在 scikit learn 中使用线性 SVM 执行二进制分类任务。我使用名义特征和词向量。我使用预训练的 Google word2vec 获得了词向量，但是，我不确定 SVM 如何将词向量作为特征来处理。
似乎我需要将每个向量“拆分”为 300 个单独的特征（= 300 个向量维度），因为我无法将向量作为一个整体传递给 SVM。但这似乎不对，因为向量应该被视为一个特征。
在这种情况下，表示向量的正确方法是什么？

【问题讨论】：

标签： python classification svm word2vec

【解决方案1】：

许多特征的向量

从 SVM 的角度来看，词向量的每个维度都是一个单独的数字特征 - 该向量中的每个维度都代表一个代表不同事物的数字度量。

这同样适用于非 SVM 分类器。例如，如果您有一个神经网络，并且您的输入特征是长度为 300 的词向量，并且（为了一个粗略的例子）有点说明该词是否大写，那么您将连接这些东西并将有 301 个数字作为您的输入；您会将该特征视为 300 个维度中的每一个。

【讨论】：

感谢您的快速回复！
所以你想说我们必须取word2vec特征的平均值。
@BilalChandio 不，我绝对不想这么说；我打算向 OP 保证，是的，将向量“拆分”为 300 个独立特征是合适的方法。我看不出答案中建议取特征的平均值，如果你能指出这种解释，我会改变答案来修复它。