【发布时间】:2021-02-12 07:31:39
【问题描述】:
在原始数据集中,我有 3k+ 行和 2 列 - id 和可以在实践中应用的语言。我的第一步是找到所选语言的频率组合。例如,Python 与 R、SQL 一起选择了多少次;或者 Java 被 JavaScript、C++ 等选中的次数。
对 Stackoverflow 的一些研究帮助我找到了这些可能的模式。下面是一些带有示例数据集的代码:
sample <- data.frame(id = rep(randomNames::randomNames(4), each = 4),
programming = c("R", "Python", "C#", "Other",
"R", "Tableu", "Assembler",
"Other", "Java", "JavaScript",
"Python", "C#","R", "Python", "C#",
"Other"))
gr <- sample %>%
group_by(id) %>%
arrange(programming) %>%
summarise(programming = paste(sort(unique(programming)), collapse = ", ")) %>%
count(programming)
但现在我想知道如何才能找到每种语言最常见的选择数量。例如,R 语言很少与 Java 和 Kotlin 一起使用,这不是一个非常流行的设置。但是与 Python 和 SQL 一起选择的 R 更受欢迎。我的目的是找出最常被选中的语言。
我也做了一些研究 (example),不幸的是,还没有找到解决方案。
我认为我应该迭代我的programming 列以找到所有可能的选择(R + ...、Python + ...;然后是 R + Python + ...)。我尝试使用lapply,但在编写 lambda 函数时遇到了困难。
解决问题的可能方法是什么?是否有任何有效的功能用于此类目的?
【问题讨论】:
-
您可以阅读
arules包(来自其描述“提供用于表示、操作和分析事务数据和模式(常用项集和关联规则)的基础设施。” -
@dario 谢谢!我会对这个包做一些研究,还没有听说过。