【发布时间】:2012-08-02 04:36:08
【问题描述】:
我有一组与特定领域相关的文档,并已根据该集合训练了质心分类器。我想要做的是,我将为分类器提供来自不同领域的文档,并希望确定它们与受过训练的领域的相关程度。我可以为此使用余弦相似度来获得一个数值,但我的问题是确定阈值的最佳方法是什么?
为此,我可以从不同域下载多个文档并检查它们的相似度分数以确定阈值。但这是要走的路吗,在统计上听起来不错吗?有什么其他方法可以做到这一点?
【问题讨论】:
标签: machine-learning data-mining classification document-classification centroid