【发布时间】:2015-06-30 08:41:30
【问题描述】:
如何为给定的数据集选择/确定分类器?
作为给定的输入训练数据。如何知道哪个分类器是最佳选择并给出最准确的结果?是否存在贝叶斯分类优于 kNN 或任何其他分类算法的情况。
【问题讨论】:
-
您希望得到什么结果?您希望挖掘的数据是什么?这将极大地影响您对分类器的选择。根据我的理解,您拥有 TF-IDF,它基本上提取了产品描述的重要部分。第二个文件,你的描述是什么意思?它是一行字符串还是一个数字描述符(即协方差和均值)。
-
决定哪个最好的通常方法是全部使用它们,并根据一个保持测试集来衡量结果。根据您对分类器的预期用途选择测量标准(例如,分类中的错误是否容易修复?)根据经验,您可能会对可能表现良好的分类器有所了解。如果你有时间,并且对你来说最好的意思是“不惜一切代价最准确”,那么最好的可能就是多个不同分类器的集合。
-
在某些情况下,贝叶斯分类的性能优于 K-最近邻,尤其是当数据特征非常稀疏(即它们不重叠)时,例如年龄与您所在的学校参加,但不要指望它表现得更好,它的主要优势是速度
标签: matlab machine-learning classification text-classification