【发布时间】:2021-10-03 16:55:54
【问题描述】:
我想使用 Gensim 训练一个 word2vec 模型。我对我的语料库进行了预处理,该语料库由来自特定报纸的数十万篇文章组成。我对它们进行了预处理(小写、词形还原、删除停用词和标点符号等),然后制作一个列表列表,其中每个元素都是一个单词列表。
corpus = [['first', 'sentence', 'second', 'dictum', 'third', 'saying', 'last', 'claim'],
['first', 'adage', 'second', 'sentence', 'third', 'judgment', 'last', 'pronouncement']]
我想知道它是否是正确的方式,或者应该是这样的:
corpus = [['first', 'sentence'], ['second', 'dictum'], ['third', 'saying'], ['last', 'claim'], ['first', 'adage'], ['second', 'sentence'], ['third', 'judgment'], ['last', 'pronouncement']]
【问题讨论】:
标签: gensim word2vec word-embedding corpus