【问题标题】:Why use TaggedBrownCorpus when training gensim doc2vec为什么在训练 gensim doc2vec 时使用 TaggedBrownCorpus
【发布时间】:2018-11-29 09:45:04
【问题描述】:

我目前正在使用带有标记文档的自定义语料库

class ClassifyCorpus(object):
    def __iter__(self):
        with open(train_data) as fp:
            for line in fp:
                splt = line.split(':')
                id = splt[0]
                text = splt[1].replace('\n', '')
                yield TaggedDocument(text.split(), [id])

查看布朗语料库的源代码,发现它只是从目录中读取并为我处理文档的标记。

我对其进行了测试,但没有发现训练速度有所提高。

【问题讨论】:

    标签: python gensim corpus doc2vec


    【解决方案1】:

    您不应该使用TaggedBrownCorpus。它只是一个演示类,用于读取包含在 gensim 中的特定小型演示数据集,用于单元测试和介绍教程。

    它以一种合理的方式为磁盘上的数据格式做事,但是任何其他将数据放入TaggedDocument-like 对象的可重复迭代序列的任何其他有效方式都同样好。

    因此,如果有帮助,请随意将其用作模型,但不要将其视为要求或“最佳实践”。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-07-31
      • 2016-08-17
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多