文本分类与句子分类[重复]答案

【问题标题】：Text classification vs. Sentence classification [duplicate]文本分类与句子分类[重复]
【发布时间】：2014-06-21 01:51:27
【问题描述】：

这两者有什么区别？文章似乎以不同的方式对待它们......也就是说，一篇论文将展示对文本分类或句子分类的研究。

我想知道 - 如果一个人对整个文本应用句子分类，然后根据其大部分句子被分类到的内容对段落进行分类 - 这会算作正确的文本分类吗？还是文本分类有不同的“捕获”？

【问题讨论】：

@adi92，感谢您的参考（也是一个非常好的答案！）我注意到您的答案和 lejlot 的答案完全相反。你对他写的有什么意见吗？
@Chesie 我们的两个答案似乎都说没有真正的区别.. 是什么让你说我们的答案相反？
@adi92 - lejlot 说句子分类与文本分类相同，只是更小。你说过，虽然相似——但你对待它们的方式不同。在句子分类中，你需要squeeze each training instance for all the information it can give you - 意思是添加单词的顺序，POS标签，也许跳过特征选择......我相信它与你处理文本分类的方式略有不同，而且它不仅仅是一个较小的问题.
这更像是一个旁注。在任何 ML 任务中，当您的单个训练实例的大小有点小时，您在从该实例中提取特征向量时更有可能需要更聪明。当您对政客的演讲（可能很长）进行分类时，指示某些单词存在/不存在的 0-1 特征向量可能足以进行分类。在对推文进行分类时，由于要处理的文本较少，因此您可能需要通过查看 POS 标签、自上一条推文以来的时间、转发次数等来变得更聪明
谢谢@adi92。你的“旁注”是我迄今为止找到的最接近的答案（赞成）:-)

【解决方案1】：

任务，问题是关于做什么而不是如何。因此，如何处理文本分类并不重要，如果您对文本进行分类，它始终是文本分类。就这样。您可以掷硬币对其进行分类，如果它取得了良好的分数，它仍然会“算作正确的文本分类”。

句子分类可以看作是一个“较小规模”的问题，因为文本分类更适合用于较大文本块（如文档）的上下文。但是这里没有严格的区别/界限。我宁愿将文本分类视为一个包，一个通用术语，您可以在其中放置单词级别的任务（例如 POS 标记）；句子分类；情感分析（在单词、句子、段落或文档层面）等。

【讨论】：