Gensim word2vec 模型是否与 Mikolov 的标准模型相同？答案

【问题标题】：Is the Gensim word2vec model same as the standard model by Mikolov?Gensim word2vec 模型是否与 Mikolov 的标准模型相同？
【发布时间】：2020-08-01 20:11:01
【问题描述】：

我正在实施一篇论文来比较我们的表现。在论文中，uathor 说

300 维预训练 word2vec 向量（Mikolov 等人，2013 年）

我想知道预训练的 word2vec Gensim 模型 here 是否与官方 Google site（GoogleNews-vectors-negative300.bin.gz 文件）上的预训练嵌入相同

我的怀疑来自 Gensim 文档中的这一行（在 Word2Vec 演示部分）

我们将获取在部分 Google 新闻数据集上训练的 Word2Vec 模型，涵盖大约 300 万个单词和短语

这是否意味着 gensim 上的模型没有经过充分训练？它与 Mikolov 的官方嵌入有什么不同吗？

【问题讨论】：

您可以参考这里：github.com/RaRe-Technologies/gensim-data 获取数据的位置和方式

标签： python nlp gensim word2vec

【解决方案1】：

用于读取词向量的演示代码正在下载完全相同的经过 Google 训练的 GoogleNews-vectors-negative300 向量集。（没有其他人可以尝试重新训练该数据集，因为新闻文章用户的原始语料库，如果我没记错的话，来自 2013 年左右的超过 100B 字的训练数据，是 Google 内部的。）

从算法上讲，gensimWord2Vec 实现是在 Google/Mikolov 发布的word2vec.c 代码之后紧密建模的，因此对于任何新训练的向量，它的结果应该在可测量的方面匹配。（线程方法的细微差别可能会略有不同。）

【讨论】：