Word2vec 模型查询答案

【问题标题】：Word2vec model queryWord2vec 模型查询
【发布时间】：2017-02-09 07:59:52
【问题描述】：

我使用 word2vec gensim 包在我的数据集上训练了一个 word2vec 模型。我的数据集有大约 131,681 个唯一词，但模型输出形状为 (47629,100) 的向量矩阵。所以只有 47,629 个单词有与之相关的向量。其余的呢？为什么我无法为每个唯一单词获得 100 维向量？

【问题讨论】：

标签： neural-network deep-learning gensim word2vec

【解决方案1】：

gensim Word2Vec 类使用默认的min_count 5，这意味着在您的语料库中出现少于 5 次的任何单词都将被忽略。如果您启用 INFO 级别的日志记录，您应该会看到有关此步骤和培训采取的其他步骤的记录消息。

请注意，很难通过很少（非变化的）使用示例来学习有意义的向量。因此，虽然您可以将 min_count 降低到 1，但您不应该期望这些向量非常好 - 甚至尝试训练它们可能会使您的其他向量恶化。（低出现率的词本质上可能是噪音，干扰其他词向量的训练，而那些其他更频繁的词确实有足够多/多样的例子来更好。）

【讨论】：

嗨，感谢您的精彩解释...:)