主题提取和文本分类之间的概念区别是什么？答案

【问题标题】：What is the conceptual difference between topic extraction and text categorization?主题提取和文本分类之间的概念区别是什么？
【发布时间】：2018-08-08 06:32:42
【问题描述】：

我很困惑，非常相似的文本挖掘服务有不同的名称，例如主题提取和文本分类/分类。它们之间的概念区别是什么？

主题提取示例： https://www.uclassify.com/browse/uclassify/topics?input=Text

分类示例： https://dandelion.eu/semantic-text/text-classification-demo/

【问题讨论】：

标签： data-mining text-mining categorical-data topic-modeling

【解决方案1】：

主题模型方法（主题提取）是无监督方法。所以，你不需要知道每个文档属于什么类别（类）[https://en.wikipedia.org/wiki/Topic_model]. 潜在狄利克雷分配 (LDA) 是一种主题建模方法。 LDA 将文档划分为主题并为主题分配名称。 [https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation] 主题模型需要输出聚类的数量与聚类方法相同。但是他们为每个输出集群分配了一个主题名称。与主题模型方法相比，文档分类方法（分类）是有监督的。所以，他们需要类标签。 [https://en.wikipedia.org/wiki/Document_classification]

【讨论】：

但是如果主题名称集是预定义的呢？这个任务叫什么名字？
既然知道类数，那就是分类问题。