用于文本分类的词性 (POS) 标签特征选择答案

【问题标题】：Part of Speech (POS) tag Feature Selection for Text Classification用于文本分类的词性 (POS) 标签特征选择
【发布时间】：2011-07-26 20:19:53
【问题描述】：

我有使用斯坦福词性标注器获得的词性标注句子。例如：

/DT岛/NN是/VBD很/RB美/JJ./。 I/PRP爱/VBP吧/PRP./.

（xml格式也可以）

谁能解释如何从这个POS标签句子中进行特征选择，并使用机器学习方法将它们转换为特征向量进行文本分类。

【问题讨论】：

【解决方案1】：

一种简单的开始方式如下所示（假设词序对您的分类算法并不重要）。

首先，您将手动对多个句子进行分类。这是您的训练数据集。通常，您从每个类别中手动分类的句子越多，您获得的准确度就越高。对于这样的监督方法，请记住，唯一选择的特征将来自您手动分类的句子。您的特征是所有训练句子中单词/POS 的每个独特组合。

最后，你必须选择一个特征选择算法。那里有很多，但一个流行的是卡方。其他一些是信息增益、互信息等。使用卡方，您可以单独测量类变量对每个特征的依赖性。您可以选择一些阈值，例如前 10% 的具有最低卡方值的特征，并且只保留这些特征以供以后在分类器中使用。

特征选择算法的选择很重要，需要反映你正在使用的算法。例如，当您想要找到与您的类正相关和负相关的特征时，卡方是很好的。在其他情况下，您可能只需要正相关的特征，因此您需要选择另一种算法或修改现有算法。

希望对您有所帮助，威廉·莱利-兰德

【讨论】：