【问题标题】:How to train p(category|title) model with word2vec如何使用 word2vec 训练 p(category|title) 模型
【发布时间】:2015-04-02 18:26:42
【问题描述】:

使用word2vec,目标是最大化语料概率p(word|context),上下文以词的形式出现。

假设给定一个语料库 Titles 及其类别(如运动、食物...),如何使用 word2vec 训练模型来预测 p(category|title)。

【问题讨论】:

    标签: word2vec


    【解决方案1】:

    您可以尝试通过将标题中的单词加在一起来获得一个“描述”整个句子的向量,从而实现自己的简单组合。获得该向量后,您可以在其上训练任何分类器(SVM、逻辑回归、k-最近邻等)。

    此方法可能足够简单,具体取决于这些标题的长度。 word2vec 嵌入已被证明在短短语的简单向量加法下表现出一些组合性(在 word2vec 论文中,Mikolov 等人显示 vec("Germany") + vec("capital") 非常接近 vec("Berlin"))。所以也许这对你来说已经足够了。

    或者,如果标题更像句子,您可以考虑使用 Quoc Le 和 Tomas Mikolov 论文中 word2vec 的句子级扩展。 Gensim 有一个非常简单易用的实现,称为 doc2vec。

    http://rare-technologies.com/doc2vec-tutorial/

    就像更简单的向量加法一样,doc2vec 将生成标题的固定长度表示,然后您可以将其输入标准 ML 库进行分类。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2021-12-15
      • 2023-03-17
      • 1970-01-01
      • 1970-01-01
      • 2019-07-12
      • 2019-09-03
      • 2018-09-02
      相关资源
      最近更新 更多