【问题标题】:NLTK: Document Classification with numeric score instead of labelsNLTK:使用数字分数而不是标签的文档分类
【发布时间】:2012-10-12 12:12:12
【问题描述】:

鉴于一个项目,我一直在使用 Python NLTK 和文档分类以及朴素贝叶斯分类器。正如我从文档中了解到的那样,如果您的不同文档被标记为 pos 或 neg 作为标签(或超过 2 个标签),这非常有效

我正在处理的已经分类的文档没有标签,但它们有一个分数,一个介于 0 和 5 之间的浮点数。

我想做的是构建一个分类器,就像文档中的电影示例一样,但这会预测一段文本的分数,而不是标签。我相信这在文档中有所提及,但从未进一步探索为“数字特征的概率”

我不是语言专家也不是统计学家,所以如果有人有这样的例子,如果你能与我分享,我将不胜感激。谢谢!

【问题讨论】:

  • 对 NLTK 不是很熟悉,但是朴素贝叶斯分类器中的标签与概率直接相关。因此,在 NLTK 代码的某处,会计算一个概率,并根据该概率是高于还是低于阈值,应用一个标签。

标签: python nltk


【解决方案1】:

您正在寻找的是线性回归,而 scikit-learn 在这方面比 NLTK 好得多,请参阅 http://scikit-learn.org/stable/modules/linear_model.html

【讨论】:

    【解决方案2】:

    这是一个很晚的答案,但也许它会对某人有所帮助。

    您要问的是回归。关于雅各布的回答,线性回归只是一种方法。不过,我同意他对 scikit-learn 的建议。

    【讨论】:

      猜你喜欢
      • 2014-01-06
      • 2014-06-27
      • 2021-06-24
      • 2016-06-05
      • 2017-04-11
      • 2011-07-29
      • 2020-06-28
      • 1970-01-01
      • 2016-07-12
      相关资源
      最近更新 更多