【问题标题】:hierarchical clustering default behavior in R?R中的层次聚类默认行为?
【发布时间】:2013-04-02 14:38:07
【问题描述】:

当您在 R 中进行以下聚类时:

> d <- dist(as.matrix(mtcars))
> hc <- hclust(d)   
> plot(hc)

你会得到一棵树,其节点的分支长度不相等。在普通的层次聚类(upgma)中,所有的长度都必须相等。有人可以解释一下 hclust 的默认行为,以及它如何产生不相等的长度吗?谢谢。

【问题讨论】:

  • 你能解释一下“不等分支长度”是什么意思吗?你是指树状图根到叶子的长度还是两个分支点之间的长度?
  • @Beasterfield:从根到叶子的长度在 upgma 中对于所有叶子总是相等的

标签: r statistics cluster-analysis hierarchical-clustering


【解决方案1】:

我也认为,这是一种奇怪的行为。但它不是由hclust 引起的,而是由plot.hclust 引起的。如果您查看帮助 (? plot.hclust),您会发现 hang 参数默认设置为 0.1:

标签应悬挂在绘图其余部分下方的绘图高度分数。负值会导致标签从 0 开始下垂。

因此,从 upgma 已知的行为可以通过

来实现
plot( hc, hang = -1 )

我猜这两种不同的行为是不同定义的结果,应该将高度分配给只包含一个观察的集群,即不与另一个合并。显然这里的定义是:它们根本没有高度。形式上,使用hang = 0 绘制它们是正确的。但是由于这看起来很难看,我猜hang = 0.1 被设置为默认值。

无论如何,hang &gt;= 0 会得到长度不等的分支。

【讨论】:

  • 我想我理解hang,但我仍然不明白为什么它会不同地适用于某些叶子而不是其他叶子......你说得对,hang=-1 解决了问题
  • @user248237dfsf 它是如何区别应用的?能给我举个例子吗?它将叶子放在集群的高度,它被合并 - hang * 树状图的总高度。
猜你喜欢
  • 2020-08-27
  • 2015-08-12
  • 1970-01-01
  • 2021-02-04
  • 1970-01-01
  • 2018-10-22
  • 2012-03-16
  • 2020-10-22
  • 1970-01-01
相关资源
最近更新 更多