从 scikit learn 将文本分类为多个类别答案

【问题标题】：Classify text into multiple categories from scikit learn从 scikit learn 将文本分类为多个类别
【发布时间】：2016-04-24 15:15:24
【问题描述】：

我有这样的文字，

"India, officially the Republic of India is a country in South Asia."

我需要它才能给我，

Country: India
Region: South Asia

无论我在 scikit 的文档中找到什么，它都能将其分类为一个类别，例如，我可以在两个分类器上对其进行训练，以检查一个国家或地区是否存在，但我希望它告诉我哪个特征对于每个分类，它都在增加，有点像 NLTK 信息量最大的特征。我该怎么做？

【问题讨论】：

你用什么算法来训练分类器？
@alivar 我正在考虑使用 SVM
看看this question 你也可以从sckit documentation 检查多标签分类，特别是OneVsRest 分类器，我想这就是你要找的......

【解决方案1】：

如果您在交叉验证时使用 SVM this question 可能会让您入门。这个想法是解释分类权重，但这不是微不足道的。

就个人而言，我更喜欢使用RandomForestClassifier，它内置了特征排名。它通过feature_importances_ 属性公开。 scikit-learn 文档中甚至还有 an example。

【讨论】：