【问题标题】:Text classification vs. Sentence classification [duplicate]文本分类与句子分类[重复]
【发布时间】:2014-06-21 01:51:27
【问题描述】:

这两者有什么区别?文章似乎以不同的方式对待它们......也就是说,一篇论文将展示对文本分类句子分类的研究。

我想知道 - 如果一个人对整个文本应用句子分类,然后根据其大部分句子被分类到的内容对段落进行分类 - 这会算作正确的文本分类吗?还是文本分类有不同的“捕获”?

【问题讨论】:

  • @adi92,感谢您的参考(也是一个非常好的答案!)我注意到您的答案和 lejlot 的答案完全相反。你对他写的有什么意见吗?
  • @Chesie 我们的两个答案似乎都说没有真正的区别.. 是什么让你说我们的答案相反?
  • @adi92 - lejlot 说句子分类与文本分类相同,只是更小。你说过,虽然相似——但你对待它们的方式不同。在句子分类中,你需要squeeze each training instance for all the information it can give you - 意思是添加单词的顺序,POS标签,也许跳过特征选择......我相信它与你处理文本分类的方式略有不同,而且它不仅仅是一个较小的问题.
  • 这更像是一个旁注。在任何 ML 任务中,当您的单个训练实例的大小有点小时,您在从该实例中提取特征向量时更有可能需要更聪明。当您对政客的演讲(可能很长)进行分类时,指示某些单词存在/不存在的 0-1 特征向量可能足以进行分类。在对推文进行分类时,由于要处理的文本较少,因此您可能需要通过查看 POS 标签、自上一条推文以来的时间、转发次数等来变得更聪明
  • 谢谢@adi92。你的“旁注”是我迄今为止找到的最接近的答案(赞成):-)

标签: machine-learning nlp text-classification


【解决方案1】:

任务,问题是关于做什么而不是如何。因此,如何处理文本分类并不重要,如果您对文本进行分类,它始终是文本分类。就这样。您可以掷硬币对其进行分类,如果它取得了良好的分数,它仍然会“算作正确的文本分类”。

句子分类可以看作是一个“较小规模”的问题,因为文本分类更适合用于较大文本块(如文档)的上下文。但是这里没有严格的区别/界限。我宁愿将文本分类视为一个包,一个通用术语,您可以在其中放置单词级别的任务(例如 POS 标记);句子分类;情感分析(在单词、句子、段落或文档层面)等。

【讨论】:

    猜你喜欢
    • 2016-06-14
    • 2022-01-04
    • 2011-11-03
    • 1970-01-01
    • 1970-01-01
    • 2020-01-31
    • 2020-06-21
    • 2019-06-24
    • 2014-06-04
    相关资源
    最近更新 更多