【发布时间】:2014-10-27 07:24:21
【问题描述】:
我正在尝试使用scikit-learn 对一些文本文档进行聚类。我正在尝试 DBSCAN 和 MeanShift,并想确定哪些超参数(例如,bandwidth 用于 MeanShift,eps 用于 DBSCAN)最适合我正在使用的数据类型(新闻文章)。
我有一些由预先标记的集群组成的测试数据。我一直在尝试使用scikit-learn 的GridSearchCV,但不明白在这种情况下如何(或是否可以)应用,因为它需要拆分测试数据,但我想运行评估整个数据集并将结果与预先标记的数据进行比较。
我一直在尝试指定一个评分函数,将估算器的标签与真实标签进行比较,但它当然不起作用,因为只有数据样本被聚类,而不是全部。
这里有什么合适的方法?
【问题讨论】:
-
你最后做了什么?
-
Scikit learn 提供来自 sklearn.model_selection 的 ParameterGrid,它应该可以帮助您循环超参数网格。
标签: flutter scikit-learn cluster-analysis