【问题标题】:Finding Common Strings Between Rows in R在 R 中查找行之间的公共字符串
【发布时间】:2020-02-05 20:29:51
【问题描述】:

我有一个包含 1 列和 30 行的数据框。每行中有一个包含 3-4 个句子的描述。我希望能够找到所有行之间共享的最常见的单词。即最独特的字符串。

例如,“Apple”可能是最常见的单词,出现了 17 次。

非常感谢大家!

【问题讨论】:

    标签: r string count unique


    【解决方案1】:

    如果你能提供一个例子,这将更容易回答。不过我还是试试看。

    install.packages("tidyverse")
    library(tidyverse)
    install.packages("tidytext")
    library(tidytext)
    
    tidy_df <- df %>%
      unnest_tokens(word, text) %>%
      anti_join(stop_words) %>%  # this will remove words such as "the", "a", "an"
      count(word, sort = TRUE)
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2013-09-13
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-04-18
      相关资源
      最近更新 更多