【发布时间】:2017-02-09 07:59:52
【问题描述】:
我使用 word2vec gensim 包在我的数据集上训练了一个 word2vec 模型。我的数据集有大约 131,681 个唯一词,但模型输出形状为 (47629,100) 的向量矩阵。所以只有 47,629 个单词有与之相关的向量。其余的呢?为什么我无法为每个唯一单词获得 100 维向量?
【问题讨论】:
标签: neural-network deep-learning gensim word2vec
我使用 word2vec gensim 包在我的数据集上训练了一个 word2vec 模型。我的数据集有大约 131,681 个唯一词,但模型输出形状为 (47629,100) 的向量矩阵。所以只有 47,629 个单词有与之相关的向量。其余的呢?为什么我无法为每个唯一单词获得 100 维向量?
【问题讨论】:
标签: neural-network deep-learning gensim word2vec
gensim Word2Vec 类使用默认的min_count 5,这意味着在您的语料库中出现少于 5 次的任何单词都将被忽略。如果您启用 INFO 级别的日志记录,您应该会看到有关此步骤和培训采取的其他步骤的记录消息。
请注意,很难通过很少(非变化的)使用示例来学习有意义的向量。因此,虽然您可以将 min_count 降低到 1,但您不应该期望这些向量非常好 - 甚至尝试训练它们可能会使您的其他向量恶化。 (低出现率的词本质上可能是噪音,干扰其他词向量的训练,而那些其他更频繁的词确实有足够多/多样的例子来更好。)
【讨论】: