【问题标题】:what is the difference between text classification and feature selection文本分类和特征选择有什么区别
【发布时间】:2020-05-10 03:46:27
【问题描述】:

我们可以选择没有分类的特征吗?如果我有文本,我怎么知道要选择哪些特征?我需要关于文本的示例而不是真实的单词对象示例。如果有人可以解释一下吗?

【问题讨论】:

    标签: machine-learning text-classification feature-selection


    【解决方案1】:

    文本分类是根据文本的特征对文本进行分类。例如,您可以将句子分类为具有积极(“我很高兴”)或消极(“我很伤心”)情绪。

    文本特征选择有效地决定了您希望如何对文本进行编码,以便您可以通过分类器运行它。有很多方法可以做到这一点。例如,您可以使用一袋词表示,其中每列代表词汇表中的一个词,每个单元格代表该词在文档中出现的次数。

    如果你有两个句子,“I am so happy, so very happy”和“I am so sad”,你对句子的编码可能是

    |我 ||上午 |所以|快乐 |非常|伤心 |

              1. 0。
              1. 1.

    【讨论】:

    • 感谢您的回答,我怎样才能知道我必须选择哪些功能的特定文本?即“我很高兴,很高兴”这句话的特点是什么
    • @irfan 您定义的功能取决于您。在上面的词袋示例中,特征是每个词在句子中出现的次数。例如,happy 在第一个句子中出现两次,因此对于该训练示例,它的值为 2。在第二个示例中,它只出现一次,因此您的值为 1。
    • 是的,这很有帮助,但在现实世界中,我们需要处理更大的数据,所以我如何从它们那里获取特征,我怎么知道它们实际上是特征?
    • @irfan 当您拥有大量数据时(大部分时间),您可以使用库中的工具(例如 scikit-learn 的 TfidfVectorizer)自动生成这些特征。
    • 所以我不必在特征选择中做任何事情?
    猜你喜欢
    • 2011-06-03
    • 2017-09-13
    • 2013-10-13
    • 2012-11-16
    • 1970-01-01
    • 2018-05-08
    • 1970-01-01
    • 2017-01-01
    • 2011-01-10
    相关资源
    最近更新 更多