【问题标题】:Clustering based on co-occurrences基于共现的聚类
【发布时间】:2016-03-14 22:11:00
【问题描述】:

我想使用 R 基于 co-occurrences 关键字对数据进行聚类。与 other posts 相比,我遇到了 2 个困难。

  1. 词的层次不同
  2. 关键字不一定按顺序或层级显示

例子

Keywords
Food;Fruit;Banana
Food;Fruit;Apple
Fruit;Food;Orange
Food;Bread;Toast
Food;Bread;Whole Grain
Bed;Bedroom;Furniture
Furniture;Bedroom;Bed
Furniture;Living Room;Chair
Furniture;Bedroom;Chair

我希望结果是关键字在第一级分支到食品和家具。在第二个和第三个还有更多的支行,例如卧室,客厅。如果我使用像

这样的层次聚类分析
hc <- hclust(dist(data))
plot(hc)

我最终会将“家具”作为最低级别的类别之一,但在我的示例中它是一个“节点”。

有解决这个问题的函数吗?

最好的 皮特

【问题讨论】:

  • 我不明白你想要的输出是什么。您正在运行 hclustdata 是什么?您是在询问聚类的统计方法吗?您只是想重塑数据吗?
  • 我正在尝试找到一种在关键字上运行的方法。输出应该是一棵树或类似的东西。在此示例中,该方法应确定食品和家具是总体类别。 “水果”和“面包”是“食物”的从属,水果下面有3类,分别是“苹果”、“香蕉”和“橙子”。有没有这样的方法可以做到这一点?
  • “找到一种在关键字上运行的方法”仍然不是很具体。听起来您可能想将其转换为表示树或图形的对象,但转换后可用的具体功能却大不相同。

标签: r cluster-analysis hierarchical-data hierarchical-clustering hclust


【解决方案1】:

评论太长,但可能不是您想要的:

df <- read.csv2(header=F, comment.char="#", text="
Food;Fruit;Banana
Food;Fruit;Apple
#Fruit;Food;Orange
Food;Bread;Toast
Food;Bread;Whole Grain
#Bed;Bedroom;Furniture
Furniture;Bedroom;Bed
#Furniture;Living Room;Chair
Furniture;Bedroom;Chair")

library(data.tree)
df$pathString <- with(df, paste("root", V1, V2, V3, sep="/"))
dt <- as.Node(df)
dt
#                  levelName
# 1  root                   
# 2   ¦--Food               
# 3   ¦   ¦--Fruit          
# 4   ¦   ¦   ¦--Banana     
# 5   ¦   ¦   °--Apple      
# 6   ¦   °--Bread          
# 7   ¦       ¦--Toast      
# 8   ¦       °--Whole Grain
# 9   °--Furniture          
# 10      °--Bedroom        
# 11          ¦--Bed        
# 12          °--Chair  

看看data.treevignette

【讨论】:

    【解决方案2】:

    您所描述的是不像聚类分析

    执行以下操作:

    1. 计算每个词的出现频率。
    2. 按词频降序对每一行进行排序。
    3. 将每一行插入到树中。

    树将分支成最常用的术语,下面有更具体的术语。

    这里没有进行任何分析,除了按频率计数 + 排序 - 所以没有什么高级或花哨但简单明了。

    【讨论】:

      猜你喜欢
      • 2020-02-17
      • 2014-04-13
      • 2020-01-30
      • 2018-02-02
      • 2020-04-14
      • 2021-03-28
      • 2023-03-21
      • 2018-09-02
      • 2016-04-17
      相关资源
      最近更新 更多