【发布时间】:2019-05-09 04:45:44
【问题描述】:
我有来自传感器的数据,我想对这些数据运行集群算法。数据不包含有关集群标签的信息,但我可以手动添加一些标签。
如何使用手动添加的标签来帮助无监督学习?
一个小例子 - 使用带有标签的测量作为 k-means 的初始中心。我可以对这些数据使用什么基于密度的算法?
【问题讨论】:
-
您的数据大小是多少?你准备手动标注多少个标签?
-
大小可以是 100k-1m 行。每个标签大约有 7 个标签和 10 个示例
-
半监督学习是一个不错的选择。这个想法是您手动标记一些数据点,然后使用一些分类算法(例如 knn)来获得更多标签,例如。在 knn 的情况下,您可以标记接近手动标签的案例。这样做应该会给您足够的标签,您可以执行聚类分析并标记所有剩余的案例。
标签: machine-learning scikit-learn cluster-analysis data-mining data-science