【发布时间】:2014-01-03 05:19:47
【问题描述】:
我正在处理数千份需要分类为大约 5 类的文件。我正在使用朴素贝叶斯分类器。当我在一些示例邮件上对其进行测试时,它运行良好,但是当我将其实际应用于原始数据集时,计算变得非常复杂,因为有更多的特征。在某一时刻,这些值非常小,几乎为零。所以我的问题是如何避免这个获取非常小的值的问题以及如何改进特征选择?
【问题讨论】:
-
这是最难的一点。 ML 中有一个专门的分支专门用于特征选择。除了依赖被证明在文本分类中得分很高的特征之外,没有比选择特征并在测试集上评分更好的方法。
标签: java machine-learning