Gensim Word Embedding语料库的结构答案

【问题标题】：Structure of Gensim Word Embedding corpusGensim Word Embedding语料库的结构
【发布时间】：2021-10-03 16:55:54
【问题描述】：

我想使用 Gensim 训练一个 word2vec 模型。我对我的语料库进行了预处理，该语料库由来自特定报纸的数十万篇文章组成。我对它们进行了预处理（小写、词形还原、删除停用词和标点符号等），然后制作一个列表列表，其中每个元素都是一个单词列表。

corpus = [['first', 'sentence', 'second', 'dictum', 'third', 'saying', 'last', 'claim'],
          ['first', 'adage', 'second', 'sentence', 'third', 'judgment', 'last', 'pronouncement']]

我想知道它是否是正确的方式，或者应该是这样的：

corpus = [['first', 'sentence'], ['second', 'dictum'], ['third', 'saying'], ['last', 'claim'], ['first', 'adage'], ['second', 'sentence'], ['third', 'judgment'], ['last', 'pronouncement']]

【问题讨论】：

标签： gensim word2vec word-embedding corpus

【解决方案1】：

两者都可以正常工作。

但是在第二种情况下，无论您的window 参数有多大，所有文本的长度都不超过 2 个标记，这意味着单词只会影响它们的直接邻居。这可能不是你想要的。

长文本并没有真正的危害，只是要注意：

所有在同一个列表中的标记将出现在彼此的window 大小的邻域中 - 所以不要将不应该暗示任何实际用途的单词放在一起。（但是，在足够大的语料库中，即使是一些杂乱无章的不相关文本的噪音也不会产生太大影响，它们会被大量文本中的真实关系所淹没。）
每个文本的长度不应超过 10,000 个标记，因为内部实现限制会导致忽略超出该限制的任何标记。

【讨论】：