【问题标题】:Nearest Neigborood using a confidence region使用置信区域的最近邻区
【发布时间】:2022-01-10 15:03:39
【问题描述】:

我有超过 100 万个数据点,其中 32 个(图片中的橙色)是我真正的班级。
我想找到与橙色相似的蓝点。
特征向量只是嵌入。

我采用的方法是建立一个伪 95 置信区域,然后将该区域内的点标记为我的真实标签。 我认为我不能使用 KNN 算法,原因如下:

  • 我只事先知道哪些点属于正类。
  • KNN 会高度过度拟合,因为我在超过 100 万个数据点上只有 32 个正数据点。
    有没有其他算法或方法更适合这个问题?

【问题讨论】:

    标签: cluster-analysis k-means knn nearest-neighbor semisupervised-learning


    【解决方案1】:

    集群非常大的数据集往往会停止。这是一个疯狂的想法。您可以随机抽取数据集样本并使用它吗?如果选择过程是完全随机的,那么它只是整个数据集的一个子集,而较小的部分应该非常能代表整个数据集。应该就这么简单。

    subset = df.sample(frac=0.5)
    

    查看此链接了解更多信息。

    https://towardsdatascience.com/how-to-sample-a-dataframe-in-python-pandas-d18a3187139b

    【讨论】:

    • 感谢您的回答,但我不确定我是否理解得很好。我已经从 50M 点数据集中采样了数据集。关于该方法的任何建议?不确定它是否确实是一个真正的聚类,因为我事先已经知道我有 32 个标记点。
    • 这听起来不像是集群实验。聚类是无监督的,因为您不知道结果会是什么。
    最近更新 更多