如何使用 word2vec 训练 p(category|title) 模型答案

【问题标题】：How to train p(category|title) model with word2vec如何使用 word2vec 训练 p(category|title) 模型
【发布时间】：2015-04-02 18:26:42
【问题描述】：

使用word2vec，目标是最大化语料概率p(word|context)，上下文以词的形式出现。

假设给定一个语料库 Titles 及其类别（如运动、食物...），如何使用 word2vec 训练模型来预测 p(category|title)。

【问题讨论】：

标签： word2vec

【解决方案1】：

您可以尝试通过将标题中的单词加在一起来获得一个“描述”整个句子的向量，从而实现自己的简单组合。获得该向量后，您可以在其上训练任何分类器（SVM、逻辑回归、k-最近邻等）。

此方法可能足够简单，具体取决于这些标题的长度。 word2vec 嵌入已被证明在短短语的简单向量加法下表现出一些组合性（在 word2vec 论文中，Mikolov 等人显示 vec("Germany") + vec("capital") 非常接近 vec("Berlin")）。所以也许这对你来说已经足够了。

或者，如果标题更像句子，您可以考虑使用 Quoc Le 和 Tomas Mikolov 论文中 word2vec 的句子级扩展。 Gensim 有一个非常简单易用的实现，称为 doc2vec。

http://rare-technologies.com/doc2vec-tutorial/

就像更简单的向量加法一样，doc2vec 将生成标题的固定长度表示，然后您可以将其输入标准 ML 库进行分类。

【讨论】：