文本分类和特征选择有什么区别答案

【问题标题】：what is the difference between text classification and feature selection文本分类和特征选择有什么区别
【发布时间】：2020-05-10 03:46:27
【问题描述】：

我们可以选择没有分类的特征吗？如果我有文本，我怎么知道要选择哪些特征？我需要关于文本的示例而不是真实的单词对象示例。如果有人可以解释一下吗？

【问题讨论】：

【解决方案1】：

文本分类是根据文本的特征对文本进行分类。例如，您可以将句子分类为具有积极（“我很高兴”）或消极（“我很伤心”）情绪。

文本特征选择有效地决定了您希望如何对文本进行编码，以便您可以通过分类器运行它。有很多方法可以做到这一点。例如，您可以使用一袋词表示，其中每列代表词汇表中的一个词，每个单元格代表该词在文档中出现的次数。

如果你有两个句子，“I am so happy, so very happy”和“I am so sad”，你对句子的编码可能是

|我 ||上午 |所以|快乐 |非常|伤心 |

【讨论】：

感谢您的回答，我怎样才能知道我必须选择哪些功能的特定文本？即“我很高兴，很高兴”这句话的特点是什么
@irfan 您定义的功能取决于您。在上面的词袋示例中，特征是每个词在句子中出现的次数。例如，happy 在第一个句子中出现两次，因此对于该训练示例，它的值为 2。在第二个示例中，它只出现一次，因此您的值为 1。
是的，这很有帮助，但在现实世界中，我们需要处理更大的数据，所以我如何从它们那里获取特征，我怎么知道它们实际上是特征？
@irfan 当您拥有大量数据时（大部分时间），您可以使用库中的工具（例如 scikit-learn 的 TfidfVectorizer）自动生成这些特征。
所以我不必在特征选择中做任何事情？