【发布时间】:2014-07-15 15:43:40
【问题描述】:
Word2vec 似乎主要在原始语料库数据上进行训练。然而,词形还原是许多语义相似性任务的标准预处理。我想知道是否有人在训练 word2vec 之前有对语料库进行词形还原的经验,以及这是否是一个有用的预处理步骤。
【问题讨论】:
-
你的意思是来自gensim的word2vec?
-
是的,但通常也是 word2vec 算法
-
例如,土耳其语具有凝集(en.0wikipedia.org/…)特征,这是非常复杂的形态学检查。对于这些情况,需要进行词干提取/词形还原,以便将语料库精简为一个非常合理的小集合。
标签: nlp word2vec gensim lemmatization