【发布时间】:2016-03-14 22:11:00
【问题描述】:
我想使用 R 基于 co-occurrences 关键字对数据进行聚类。与 other posts 相比,我遇到了 2 个困难。
- 词的层次不同
- 关键字不一定按顺序或层级显示
例子
Keywords
Food;Fruit;Banana
Food;Fruit;Apple
Fruit;Food;Orange
Food;Bread;Toast
Food;Bread;Whole Grain
Bed;Bedroom;Furniture
Furniture;Bedroom;Bed
Furniture;Living Room;Chair
Furniture;Bedroom;Chair
我希望结果是关键字在第一级分支到食品和家具。在第二个和第三个还有更多的支行,例如卧室,客厅。如果我使用像
这样的层次聚类分析hc <- hclust(dist(data))
plot(hc)
我最终会将“家具”作为最低级别的类别之一,但在我的示例中它是一个“节点”。
有解决这个问题的函数吗?
最好的 皮特
【问题讨论】:
-
我不明白你想要的输出是什么。您正在运行
hclust的data是什么?您是在询问聚类的统计方法吗?您只是想重塑数据吗? -
我正在尝试找到一种在关键字上运行的方法。输出应该是一棵树或类似的东西。在此示例中,该方法应确定食品和家具是总体类别。 “水果”和“面包”是“食物”的从属,水果下面有3类,分别是“苹果”、“香蕉”和“橙子”。有没有这样的方法可以做到这一点?
-
“找到一种在关键字上运行的方法”仍然不是很具体。听起来您可能想将其转换为表示树或图形的对象,但转换后可用的具体功能却大不相同。
标签: r cluster-analysis hierarchical-data hierarchical-clustering hclust