【发布时间】:2015-10-28 20:21:43
【问题描述】:
我刚刚从头开始创建了自己的朴素贝叶斯模型,并在 776 个文档上对其进行了训练。我尝试对文档进行分类,但在所有三个测试文档中都对文档进行了错误分类。甚至本应属于其他类别的概率最低的类别(这是三个测试文档中的两个)。
我应该增加培训文档的数量吗? 我不认为这是我的代码,因为我检查了计算但我不知道,也许 compute_numerators 函数在某种程度上是错误的?对于分子部分,由于下溢问题,我使用了日志,并总结了术语的概率和 (number_of_documents_in_category/overall_number_of_documents)
超级困惑和沮丧,因为这花了我这么长时间,现在我觉得它是徒劳的,因为它甚至没有正确分类一个文档:(
@鲍勃狄龙, 您好,感谢您认真的回复。我最大的问题是你所说的可分离是什么意思。你的意思是类之间的文件是否有明显的区别?我真的不知道该怎么回答。数据是由人类分类的,因此可以进行分离,但也许它与其他类型的类别如此接近以至于变得模糊?也许计算机无法识别归类为同一事物与另一类别的单词的差异?我必须保留这些类别,我不能重新排列类别,它们必须保持原样。我不确定如何在 R 中进行原型设计,我是否还需要获取文本数据并运行它?我是否还需要创建标记化等?我将研究信息增益和 SVM。我可能会回帖。谢谢!
【问题讨论】:
-
那么您将它与什么进行比较才能知道它是错误的?再加上统计数据中的神奇数字是 30。只要您有超过 30 个观察值,您的样本量就应该足够大。
-
那么测试文档已经分类了,我只是想看看它是否分类正确。我将预测与实际进行比较。是的,我有 776 个,所以肯定涵盖了 30 个基数,但也许文本分类需要更多??
-
所以不要担心你的样品你很好。您要比较的引擎仍然没有意义。您的训练集与 R 或 Matlab 中的训练集不同吗?我仍然很困惑你怎么知道这是错的。
-
@FirebladeDan 引用“统计数据中的幻数是 30”?这听起来根本不对。
-
@IVlad - 我会认为你的证书是优越的。良好的输入 dlow
标签: machine-learning analytics text-classification document-classification naivebayes