【问题标题】:Classify text into multiple categories from scikit learn从 scikit learn 将文本分类为多个类别
【发布时间】:2016-04-24 15:15:24
【问题描述】:

我有这样的文字,

"India, officially the Republic of India is a country in South Asia."

我需要它才能给我,

Country: India
Region: South Asia

无论我在 scikit 的文档中找到什么,它都能将其分类为一个类别,例如,我可以在两个分类器上对其进行训练,以检查一个国家或地区是否存在,但我希望它告诉我哪个特征对于每个分类,它都在增加,有点像 NLTK 信息量最大的特征。 我该怎么做?

【问题讨论】:

  • 你用什么算法来训练分类器?
  • @alivar 我正在考虑使用 SVM
  • 看看this question 你也可以从sckit documentation 检查多标签分类,特别是OneVsRest 分类器,我想这就是你要找的......

标签: python scikit-learn


【解决方案1】:

如果您在交叉验证时使用 SVM this question 可能会让您入门。这个想法是解释分类权重,但这不是微不足道的。

就个人而言,我更喜欢使用RandomForestClassifier,它内置了特征排名。它通过feature_importances_ 属性公开。 scikit-learn 文档中甚至还有 an example

【讨论】:

    猜你喜欢
    • 2012-05-18
    • 2018-07-03
    • 2019-06-18
    • 2016-10-17
    • 2018-02-11
    • 2014-12-31
    • 2016-05-16
    • 1970-01-01
    相关资源
    最近更新 更多