【问题标题】:R Text Mining Term Adjacency MatrixR文本挖掘术语邻接矩阵
【发布时间】:2016-01-26 19:29:03
【问题描述】:

我使用 tm 包从我的语料库创建了一个文档术语矩阵。

dtm <- DocumentTermMatrix(myCorpus, control=list(wordLengths=c(4, 20),
       bounds = list(global = c(1,13))))

然后我创建了一个术语-术语邻接矩阵。

ttm_results <- t(as.matrix(dtm)) %*% as.matrix(dtm)

当我检查我的结果样本时

ttm_results[200:205, 200:205]

我注意到这是一个非常大但稀疏的数据集。

如何删除essentially zeros 的行?

我认为essentially zero 包含没有adjacent 术语的行,例如 1,2 和 5。

【问题讨论】:

    标签: r tm


    【解决方案1】:

    这个怎么样

    #rebuilding your matrix 
    m <- diag(6)
    m[3, 3] = 71
    m[4, 5] = 1
    m[5, 4] = 1
    
    m
         [,1] [,2] [,3] [,4] [,5] [,6]
    [1,]    1    0    0    0    0    0
    [2,]    0    1    0    0    0    0 
    [3,]    0    0   71    0    0    0
    [4,]    0    0    0    1    1    0
    [5,]    0    0    0    1    1    0
    [6,]    0    0    0    0    0    1
    
    #answer
    m[!rowSums(m)==1, ]
    

    【讨论】:

    • 我认为你的方向是正确的,但我的 R-foo 不是它需要的。我已经阅读了? diag,但我并没有真正关注你“重建”矩阵的前 4 行中发生的事情。能详细说明一下吗?
    • 前四行代码正在复制您的原始矩阵。只需要注意最后一行代码
    猜你喜欢
    • 2018-04-04
    • 2013-12-31
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-05-17
    • 1970-01-01
    • 2012-05-01
    • 1970-01-01
    相关资源
    最近更新 更多