【问题标题】:What is the conceptual difference between topic extraction and text categorization?主题提取和文本分类之间的概念区别是什么?
【发布时间】:2018-08-08 06:32:42
【问题描述】:

我很困惑,非常相似的文本挖掘服务有不同的名称,例如主题提取和文本分类/分类。它们之间的概念区别是什么?

主题提取示例: https://www.uclassify.com/browse/uclassify/topics?input=Text

分类示例: https://dandelion.eu/semantic-text/text-classification-demo/

【问题讨论】:

    标签: data-mining text-mining categorical-data topic-modeling


    【解决方案1】:

    主题模型方法(主题提取)是无监督方法。所以,你不需要知道每个文档属于什么类别(类)[https://en.wikipedia.org/wiki/Topic_model]. 潜在狄利克雷分配 (LDA) 是一种主题建模方法。 LDA 将文档划分为主题并为主题分配名称。 [https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation] 主题模型需要输出聚类的数量与聚类方法相同。但是他们为每个输出集群分配了一个主题名称。 与主题模型方法相比,文档分类方法(分类)是有监督的。所以,他们需要类标签。 [https://en.wikipedia.org/wiki/Document_classification]

    【讨论】:

    • 但是如果主题名称集是预定义的呢?这个任务叫什么名字?
    • 既然知道类数,那就是分类问题。
    猜你喜欢
    • 2012-03-23
    • 2019-05-17
    • 2012-06-02
    • 2023-03-10
    • 2016-04-24
    • 1970-01-01
    • 2011-06-08
    • 2011-03-28
    • 2017-02-06
    相关资源
    最近更新 更多