【发布时间】:2020-08-01 20:11:01
【问题描述】:
我正在实施一篇论文来比较我们的表现。在论文中,uathor 说
300 维预训练 word2vec 向量(Mikolov 等人,2013 年)
我想知道预训练的 word2vec Gensim 模型 here 是否与官方 Google site(GoogleNews-vectors-negative300.bin.gz 文件)上的预训练嵌入相同
我的怀疑来自 Gensim 文档中的这一行(在 Word2Vec 演示部分)
我们将获取在部分 Google 新闻数据集上训练的 Word2Vec 模型,涵盖大约 300 万个单词和短语
这是否意味着 gensim 上的模型没有经过充分训练?它与 Mikolov 的官方嵌入有什么不同吗?
【问题讨论】:
-
您可以参考这里:github.com/RaRe-Technologies/gensim-data 获取数据的位置和方式
标签: python nlp gensim word2vec