【问题标题】:Difference of nearest-neighbour clustering and K-nearest neighbour clustering最近邻聚类和K-最近邻聚类的区别
【发布时间】:2019-01-03 15:02:26
【问题描述】:

我们是两个学生,正在撰写一篇研讨会论文(主题:大数据时代的营销),我们必须使用最近邻聚类进行聚类分析。不幸的是,我们无法区分最近邻聚类和 K-最近邻。首先我们认为它只是被称为不同。在我们读过很多论文说 KNN 是一种有监督的机器学习算法,而我们的教授说最近邻是一种无监督的算法之后,我们认识到肯定有区别。网上有很多不同的说法,为什么我们现在很困惑。

希望有人可以帮助我们解决理解问题。

在此先感谢您和问候。

【问题讨论】:

  • 这确实不是一个适合 Stack Overflow 的特定编程问题。如果您有关于统计方法的一般性问题,您应该在Cross Validated 询问有关统计问题的地方,或Data Science
  • 已经在 Cross Validated 上得到回答 [stats.stackexchange.com/questions/56500/…
  • 最近邻聚类和k-最近邻聚类。 (不是 K 均值聚类)。 :-)

标签: r machine-learning nearest-neighbor


【解决方案1】:

最近邻算法基本上返回与给定测试样本距离最小的训练样本。 k-最近邻返回离给定测试样本至少距离的 k(一个正整数) 训练样例。

【讨论】:

    【解决方案2】:

    “最近邻”只是k=1 的“k 个最近邻”。

    可能令人困惑的是,“最近邻”也适用于有监督和无监督聚类。在有监督的情况下,一个“新的”、未分类的元素被分配到与最近邻相同的类(或最近的k 邻居的模式)。

    在无监督的情况下,我们一般应用“层次聚类”:取距离最小的两个点;声明一个包含这两个点的新类。

    现在遍历距离,从最小到最大;如果两个点都不在一个类中,则创建一个新类来包含它们;如果一个点已经在一个类中,则将另一个点添加到该类中;如果两个点都在类中,则合并类。继续此过程,直到您拥有所需数量的课程。

    注意:当您将一个点添加到一个类时,请删除(从您的迭代列表中)该点到其他类成员的距离。当您合并类时,请删除曾经在相反类中的点之间的所有距离。

    这有帮助吗?

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2023-04-07
      • 1970-01-01
      • 1970-01-01
      • 2018-05-09
      • 2011-06-23
      • 2019-10-01
      • 2014-02-23
      相关资源
      最近更新 更多