【问题标题】:Structure of Gensim Word Embedding corpusGensim Word Embedding语料库的结构
【发布时间】:2021-10-03 16:55:54
【问题描述】:

我想使用 Gensim 训练一个 word2vec 模型。我对我的语料库进行了预处理,该语料库由来自特定报纸的数十万篇文章组成。我对它们进行了预处理(小写、词形还原、删除停用词和标点符号等),然后制作一个列表列表,其中每个元素都是一个单词列表。

corpus = [['first', 'sentence', 'second', 'dictum', 'third', 'saying', 'last', 'claim'],
          ['first', 'adage', 'second', 'sentence', 'third', 'judgment', 'last', 'pronouncement']]

我想知道它是否是正确的方式,或者应该是这样的:

corpus = [['first', 'sentence'], ['second', 'dictum'], ['third', 'saying'], ['last', 'claim'], ['first', 'adage'], ['second', 'sentence'], ['third', 'judgment'], ['last', 'pronouncement']]

【问题讨论】:

    标签: gensim word2vec word-embedding corpus


    【解决方案1】:

    两者都可以正常工作。

    但是在第二种情况下,无论您的window 参数有多大,所有文本的长度都不超过 2 个标记,这意味着单词只会影响它们的直接邻居。这可能不是你想要的。

    长文本并没有真正的危害,只是要注意:

    • 所有在同一个列表中的标记将出现在彼此的window 大小的邻域中 - 所以不要将不应该暗示任何实际用途的单词放在一起。 (但是,在足够大的语料库中,即使是一些杂乱无章的不相关文本的噪音也不会产生太大影响,它们会被大量文本中的真实关系所淹没。)
    • 每个文本的长度不应超过 10,000 个标记,因为内部实现限制会导致忽略超出该限制的任何标记。

    【讨论】:

      最近更新 更多