如何导入带有句子的文档来训练 doc2vec 模型？

【问题标题】：How to import a document with sentences to train a doc2vec model?如何导入带有句子的文档来训练 doc2vec 模型？
【发布时间】：2019-04-14 10:49:55
【问题描述】：

我想得到句子之间的余弦相似度。我已经用 gensim 测试了 doc2vec，并且只用代码中给出的几句话对其进行了训练。但是我想使用每行一个句子的文本文档来训练我的模型。如何使用带有句子的文档？

【问题讨论】：

欢迎来到 StackOverflow！请更新您的问题以在Minimal, Complete, and Verifiable example 中显示您已经尝试过的内容。如需更多信息，请参阅How to Ask。

【解决方案1】：

如果您的文档已经是文本文件的形式，每行一个句子，那么 gensim（或其他地方）包含的许多示例都显示了如何处理这样的语料库。

例如，在其docs/notebooks 目录中有一个与gensim 捆绑在一起的介绍性 Doc2Vec 教程笔记本，您也可以在项目 github 存储库中在线查看：

它的单元格 (3) 显示并且单元格 (4) 使用一个函数来逐行读取文件，并将其转换为模型所需的 TaggedDocument 文本。

【讨论】：