基于共现的聚类答案

【问题标题】：Clustering based on co-occurrences基于共现的聚类
【发布时间】：2016-03-14 22:11:00
【问题描述】：

我想使用 R 基于 co-occurrences 关键字对数据进行聚类。与 other posts 相比，我遇到了 2 个困难。

词的层次不同
关键字不一定按顺序或层级显示

例子

Keywords
Food;Fruit;Banana
Food;Fruit;Apple
Fruit;Food;Orange
Food;Bread;Toast
Food;Bread;Whole Grain
Bed;Bedroom;Furniture
Furniture;Bedroom;Bed
Furniture;Living Room;Chair
Furniture;Bedroom;Chair

我希望结果是关键字在第一级分支到食品和家具。在第二个和第三个还有更多的支行，例如卧室，客厅。如果我使用像

这样的层次聚类分析

hc <- hclust(dist(data))
plot(hc)

我最终会将“家具”作为最低级别的类别之一，但在我的示例中它是一个“节点”。

有解决这个问题的函数吗？

最好的皮特

【问题讨论】：

我不明白你想要的输出是什么。您正在运行 hclust 的 data 是什么？您是在询问聚类的统计方法吗？您只是想重塑数据吗？
我正在尝试找到一种在关键字上运行的方法。输出应该是一棵树或类似的东西。在此示例中，该方法应确定食品和家具是总体类别。 “水果”和“面包”是“食物”的从属，水果下面有3类，分别是“苹果”、“香蕉”和“橙子”。有没有这样的方法可以做到这一点？
“找到一种在关键字上运行的方法”仍然不是很具体。听起来您可能想将其转换为表示树或图形的对象，但转换后可用的具体功能却大不相同。

标签： r cluster-analysis hierarchical-data hierarchical-clustering hclust

【解决方案1】：

评论太长，但可能不是您想要的：

df <- read.csv2(header=F, comment.char="#", text="
Food;Fruit;Banana
Food;Fruit;Apple
#Fruit;Food;Orange
Food;Bread;Toast
Food;Bread;Whole Grain
#Bed;Bedroom;Furniture
Furniture;Bedroom;Bed
#Furniture;Living Room;Chair
Furniture;Bedroom;Chair")

library(data.tree)
df$pathString <- with(df, paste("root", V1, V2, V3, sep="/"))
dt <- as.Node(df)
dt
#                  levelName
# 1  root                   
# 2   ¦--Food               
# 3   ¦   ¦--Fruit          
# 4   ¦   ¦   ¦--Banana     
# 5   ¦   ¦   °--Apple      
# 6   ¦   °--Bread          
# 7   ¦       ¦--Toast      
# 8   ¦       °--Whole Grain
# 9   °--Furniture          
# 10      °--Bedroom        
# 11          ¦--Bed        
# 12          °--Chair

看看data.treevignette。

【讨论】：

【解决方案2】：

您所描述的是不像聚类分析。

执行以下操作：

计算每个词的出现频率。
按词频降序对每一行进行排序。
将每一行插入到树中。

树将分支成最常用的术语，下面有更具体的术语。

这里没有进行任何分析，除了按频率计数 + 排序 - 所以没有什么高级或花哨但简单明了。

【讨论】：