【发布时间】:2015-04-21 03:49:30
【问题描述】:
我正在使用 gensim 框架中的 Doc2vec 类来计算语料库中每个文档的矢量表示。
语料库包含非常短的句子,它们甚至可以有一个单词。我观察到对于许多句子,尤其是短句,Doc2vec 不提供任何表示。有人能解释一下原因吗?
【问题讨论】:
我正在使用 gensim 框架中的 Doc2vec 类来计算语料库中每个文档的矢量表示。
语料库包含非常短的句子,它们甚至可以有一个单词。我观察到对于许多句子,尤其是短句,Doc2vec 不提供任何表示。有人能解释一下原因吗?
【问题讨论】:
我遇到了同样的问题。我通过设置参数 min_count=1 解决了。
model = doc2vec.Doc2Vec(size=100)
成为
model = doc2vec.Doc2Vec(size=100, min_count=1)
解决了我的问题!
我在doc2vec教程http://radimrehurek.com/2014/12/doc2vec-tutorial/987654321@的cmets中找到了答案
【讨论】: