【发布时间】:2023-07-08 02:57:01
【问题描述】:
我正在开发一个 Java 程序(分类器),它读取给定的文本文件并输出相关的情绪(正面或负面或中性)。
程序计算三个类别(正或负或中性)的三个概率。鉴于这三个概率,我想给文章打分(最高 10 分)。
示例 - 如果假设,
P(Positive) = 0.0006
P(Negative) = 0.0001
P(Neutral) = 0.0002
那么很明显,这篇文章是高度正面的,因此评级应该是高的,即 8 或以上。
PS - 概率加起来不等于 1,并且是非常小的数字(在 ~ 10^-(100) 的范围内)
有人能指出任何可以帮助我评价文章的算法吗?
谢谢
编辑 我不能简单地取比率。例如
P(Positive) = 1.2*E(-117)
P(Negative) = 4.7*E(-112)
P(Neutral) = 9.3*E(-110)
上面显示的概率差异很大。因此,采用比率将毫无意义。
【问题讨论】:
-
我认为这与编程无关。最好在 stats.stackexchange.com
-
谢谢@leonbloy。我是 * 的新手,将在 stats.stackexchange.com 上发布这个问题。
-
如果 {positive,negative,neutral} 是样本空间,那么严格来说,您在这里没有处理概率度量,因为它们的 P(x) 不等于 1;这在这里可能看起来无关紧要并且可能是(所以如果它无关紧要,你显然可以忽略它),但根据你对 P 的这些值所做的事情,如果你假设 P 是一个概率度量,你可能会遇到麻烦。
-
@G.Bach 你是对的,这些是每个类的可能性。我松散地将它们称为概率。如果您浏览一些与情绪分析相关的研究论文,您会发现这些概率永远不会等于 1。这意味着可能存在另一个类别,即 - 对于不属于其他类别的文档的“未分类” .由于我们只想估计文档可能属于哪个类,我们可能会忽略其他类并在三者中选择最合适的。 PS - 我正在使用机器学习来训练分类器。无论如何谢谢!
标签: java algorithm math probability sentiment-analysis