【问题标题】:What is the input format for word2vec features in SVM classification task?SVM 分类任务中 word2vec 特征的输入格式是什么?
【发布时间】:2019-07-17 16:23:29
【问题描述】:

我正在 scikit learn 中使用线性 SVM 执行二进制分类任务。我使用名义特征和词向量。我使用预训练的 Google word2vec 获得了词向量,但是,我不确定 SVM 如何将词向量作为特征来处理。
似乎我需要将每个向量“拆分”为 300 个单独的特征(= 300 个向量维度),因为我无法将向量作为一个整体传递给 SVM。但这似乎不对,因为向量应该被视为一个特征。
在这种情况下,表示向量的正确方法是什么?

【问题讨论】:

    标签: python classification svm word2vec


    【解决方案1】:

    许多特征的向量

    从 SVM 的角度来看,词向量的每个维度都是一个单独的数字特征 - 该向量中的每个维度都代表一个代表不同事物的数字度量。

    这同样适用于非 SVM 分类器。例如,如果您有一个神经网络,并且您的输入特征是长度为 300 的词向量,并且(为了一个粗略的例子)有点说明该词是否大写,那么您将连接这些东西并将有 301 个数字作为您的输入;您会将该特征视为 300 个维度中的每一个。

    【讨论】:

    • 感谢您的快速回复!
    • 所以你想说我们必须取word2vec特征的平均值。
    • @BilalChandio 不,我绝对不想这么说;我打算向 OP 保证,是的,将向量“拆分”为 300 个独立特征是合适的方法。我看不出答案中建议取特征的平均值,如果你能指出这种解释,我会改变答案来修复它。
    猜你喜欢
    • 2015-12-09
    • 2021-10-05
    • 2012-08-19
    • 2018-11-29
    • 2018-09-09
    • 2012-03-13
    • 2017-09-19
    • 2020-03-06
    • 2018-03-16
    相关资源
    最近更新 更多