半监督聚类/分类答案

【问题标题】：Semi-supervised clustering/classification半监督聚类/分类
【发布时间】：2019-05-09 04:45:44
【问题描述】：

我有来自传感器的数据，我想对这些数据运行集群算法。数据不包含有关集群标签的信息，但我可以手动添加一些标签。

如何使用手动添加的标签来帮助无监督学习？

一个小例子 - 使用带有标签的测量作为 k-means 的初始中心。我可以对这些数据使用什么基于密度的算法？

【问题讨论】：

您的数据大小是多少？你准备手动标注多少个标签？
大小可以是 100k-1m 行。每个标签大约有 7 个标签和 10 个示例
stackoverflow.com/questions/21258367/…
半监督学习是一个不错的选择。这个想法是您手动标记一些数据点，然后使用一些分类算法（例如 knn）来获得更多标签，例如。在 knn 的情况下，您可以标记接近手动标签的案例。这样做应该会给您足够的标签，您可以执行聚类分析并标记所有剩余的案例。

【解决方案1】：

您可以使用 init 参数选择哪些样本将成为 k-means 的初始中心（阅读文档 here）。

如果将 ndarray 传递给 init，它的形状应为 (n_clusters, n_features) 并给出初始中心。在这种情况下，将使用数组as explained here 中指定的质心执行单个初始化。

需要这个形状意味着init必须有n_clusters行，并且每行中的元素数量应该与actual_data_points as discussed here的维度相匹配。

【讨论】：