【发布时间】:2021-06-14 08:55:11
【问题描述】:
我正在使用 Gensim 构建一个包含 1000 个文档的 Doc2Vec 模型。 每个文档由多个句子组成,其中包含多个单词。
示例)
Doc1: [[word1, word2, word3], [word4, word5, word6, word7],[word8, word9, word10]]
Doc2: [[word7, word3, word1, word2], [word1, word5, word6, word10]]
最初,为了训练 Doc2Vec,我首先拆分句子并使用“TaggedDocument”使用相同的文档标签标记每个句子。结果,我得到了 Doc2Vec 的最终训练输入如下:
TaggedDocument(words=[word1, word2, word3], tags=['Doc1'])
TaggedDocument(words=[word4, word5, word6, word7], tags=['Doc1'])
TaggedDocument(words=[word8, word9, word10], tags=['Doc1'])
TaggedDocument(words=[word7, word3, word1, word2], tags=['Doc2'])
TaggedDocument(words=[word1, word5, word6, word10], tags=['Doc2'])
但是,不拆分句子,将整个文档作为一个整体来训练模型可以吗?
TaggedDocument(words=[word1, word2, word3,word4, word5, word6, word7,word8, word9, word10], tags=['Doc1'])
TaggedDocument(words=[word4, word5, word6, word7,word1, word5, word6, word10], tags=['Doc2'])
提前谢谢你:)
【问题讨论】: