为什么在训练 gensim doc2vec 时使用 TaggedBrownCorpus

【问题标题】：Why use TaggedBrownCorpus when training gensim doc2vec为什么在训练 gensim doc2vec 时使用 TaggedBrownCorpus
【发布时间】：2018-11-29 09:45:04
【问题描述】：

我目前正在使用带有标记文档的自定义语料库

class ClassifyCorpus(object):
    def __iter__(self):
        with open(train_data) as fp:
            for line in fp:
                splt = line.split(':')
                id = splt[0]
                text = splt[1].replace('\n', '')
                yield TaggedDocument(text.split(), [id])

查看布朗语料库的源代码，发现它只是从目录中读取并为我处理文档的标记。

我对其进行了测试，但没有发现训练速度有所提高。

【问题讨论】：

标签： python gensim corpus doc2vec

【解决方案1】：

您不应该使用TaggedBrownCorpus。它只是一个演示类，用于读取包含在 gensim 中的特定小型演示数据集，用于单元测试和介绍教程。

它以一种合理的方式为磁盘上的数据格式做事，但是任何其他将数据放入TaggedDocument-like 对象的可重复迭代序列的任何其他有效方式都同样好。

因此，如果有帮助，请随意将其用作模型，但不要将其视为要求或“最佳实践”。

【讨论】：