【发布时间】:2022-01-10 15:03:39
【问题描述】:
我有超过 100 万个数据点,其中 32 个(图片中的橙色)是我真正的班级。
我想找到与橙色相似的蓝点。
特征向量只是嵌入。
我采用的方法是建立一个伪 95 置信区域,然后将该区域内的点标记为我的真实标签。
我认为我不能使用 KNN 算法,原因如下:
- 我只事先知道哪些点属于正类。
- KNN 会高度过度拟合,因为我在超过 100 万个数据点上只有 32 个正数据点。
有没有其他算法或方法更适合这个问题?
【问题讨论】:
标签: cluster-analysis k-means knn nearest-neighbor semisupervised-learning