查找 R 中所有可能对的频率答案

【问题标题】：Finding frequencies of all possible pairs in R查找 R 中所有可能对的频率
【发布时间】：2014-08-10 14:03:53
【问题描述】：

我正在使用 R 处理药物和反应的大型数据集。目前，我将数据结构化为一个非常高的数据框，其中列出了报告 ID 号、药物名称和报告的反应。如您所知，ID 与药物以及药物与反应之间存在一对多的关系。

请记住，这个数据集比我在这里可以复制的要大得多，我想知道如何找到哪些药物对会导致哪些反应以及以何种频率发生。

最重要的是，我对如何处理这样的问题很感兴趣。数据结构是否正确？我应该阅读哪些概念或库？

这里是一些真实数据的链接：https://www.dropbox.com/s/kzx4mpyytbo9zil/query_result.csv

   ID    DRUG                                REACTION
1  1827  ASPIRIN                           CHEST PAIN
2  1827  CLARINEX                          CHEST PAIN
3  1827  ASPIRIN                                COUGH
4  1827  CLARINEX                               COUGH
5  1827  ASPIRIN                HAEMOGLOBIN DECREASED
6  1827  CLARINEX               HAEMOGLOBIN DECREASED
7  1827  ASPIRIN           NEUTROPHIL COUNT INCREASED
8  1827  CLARINEX          NEUTROPHIL COUNT INCREASED
9  1827  ASPIRIN               PHARYNGOLARYNGEAL PAIN
10 1827  CLARINEX              PHARYNGOLARYNGEAL PAIN
...

在我的小脑袋里，最终结果看起来像这样......

    Drug1       Drug2       Reaction            Frequency
1   tylenol     alcohol     hepatic failure     298
2   advil       aleve       bleeding            201 
3   aspirin     advil       renal failure       199
4   docusate    senna       diarrhea            146
5   senna       sudafed     palpitations        121
6   xanax       alcohol     sedation            111
7   clarinex    benadryl    dry mouth           96
...
569 ASPIRIN     CLARINEX    CHEST PAIN          2

Drug1 和 Drug2 是整个数据集中出现频率最高的药物对。 “药物对”定义为具有相同报告 ID 的两种药物的任意组合。上面的示例输出将被解释为“第 1 行有 298 个唯一的报告 ID，其反应是肝功能衰竭。”

【问题讨论】：

Counting unique pairs of categorical variables in R的可能重复
你是如何选择drug1和drug2的？您应该展示您希望 ASPIRIN 和 CLARINEX 如何进入决赛桌。
@mso，问题已更新以回答您的问题。谢谢。
我仍然不明白这一点 - 看看你的声誉，我假设你不是在寻求诸如 unique 等功能的帮助，如何对数据进行子集化（subset，[ )，以及如何在unique(df$REACTION) 上循环/应用它？除非这是一个相当统计/概念的问题，你能澄清一下编程问题吗？
每个报告 id 可以有许多药物和许多反应。我想为每个报告 id 获取所有可能的 drugs 对 (drug1 + drug2)，然后每个i>reaction 为每个报告 id 并为这三个（frequency）的任何实例增加一个计数器。（请记住，阿司匹林 + clarinex 与 clarinex + 阿司匹林相同）

标签： r plyr opendata

【解决方案1】：

好的，我尝试回答 - 我希望我的问题正确。该代码旨在提供一些想法，而不是优雅/最终。
请注意：我故意使用 for 循环而不是可能的矢量化/应用函数，以便更容易理解（熟悉应用函数的人也会理解 for 循环;-)）。
请注意 2：由于我只有一小部分数据，因此无法测试整个数据集的代码！
编辑：基于上述示例的列 - 可能不同于csv 数据。

重点是：

unique、[等。
utils::combn获取组合
sum(FALSE/TRUE 值) 计数

希望对您有所帮助！

require(utils)

df <- read.table(header=TRUE, 
text="LINE ID DRUG REACTION
1 1827 ASPIRIN CHEST_PAIN
2 1827 CLARINEX CHEST_PAIN
3 1827 ASPIRIN COUGH
4 1827 CLARINEX COUGH
5 1827 ASPIRIN HAEMOGLOBIN_DECREASED
6 1827 CLARINEX HAEMOGLOBIN_DECREASED
7 1827 ASPIRIN NEUTROPHIL_COUNT_INCREASED
8 1827 CLARINEX NEUTROPHIL_COUNT_INCREASED
9 1827 ASPIRIN PHARYNGOLARYNGEAL_PAIN
10 1827 CLARINEX PHARYNGOLARYNGEAL_PAIN")

# temporary object to collect if a combination is present
Results <- data.frame(Drug1=NA, Drug2=NA, Reaction=NA, Reaction.occurs=NA)
n=1 # start first line in Results object

#  walk through each ID ... 
for (ID in unique(df$ID)) { 

  # ... and each possible pair of drugs within a (report) ID ...
  drug.pairs <- utils::combn(x=unique(df[df$ID == ID, "DRUG"]), m=2) # the columns 
  for (ii in 1:ncol(drug.pairs)) {

    # ... and each reaction ...
    for (reaction in unique(df$REACTION)) {
      Results[n, "Drug1"] <- drug.pairs[1,ii]
      Results[n, "Drug2"] <- drug.pairs[2,ii]
      Results[n, "Reaction"] <- reaction
      Results[n, "Reaction.occurs"] <- drug.pairs[1,ii] %in% df[df$REACTION == reaction & df$ID == ID, "DRUG"] &
        drug.pairs[2,ii] %in% df[df$REACTION == reaction & df$ID == ID, "DRUG"]
      n <- n+1
    }
  }
}

head(Results)

# then find the unique Drug1 - Drug2 -Reaction combinations, and count the TRUE values:
(Results[!duplicated(Results[,1:3]), ][,1:3])
(unique(Results[, 1:3]))

# Results2 contains only the unique combinations
Results2 <- Results[!duplicated(Results[,1:3]), ][,1:3]

# calculatethe frequencies
for (i in 1:nrow(Results2)) {
  Results2[i, "Frequency"] <- sum(Results[Results$Drug1 == Results2[i, "Drug1"] & 
                                            Results$Drug2 == Results2[i, "Drug2"] & 
                                            Results$Reaction == Results2[i, "Reaction"], ]$Reaction.occurs)
}

Results2
# --- end ----

给予：

    Drug1    Drug2                   Reaction Frequency
1 ASPIRIN CLARINEX                 CHEST_PAIN         1
2 ASPIRIN CLARINEX                      COUGH         1
3 ASPIRIN CLARINEX      HAEMOGLOBIN_DECREASED         1
4 ASPIRIN CLARINEX NEUTROPHIL_COUNT_INCREASED         1
5 ASPIRIN CLARINEX     PHARYNGOLARYNGEAL_PAIN         1

【讨论】：

我用 csv 文件中的数据测试了上面的代码：只有 3 个项目的频率为 1，所有其他频率为 0：拉米夫定+司他夫定：“怀孕期间的药物暴露 1”拉米夫定+司他夫定：“髋关节发育不良1" 拉米夫定+司他夫定："影响胎儿 1 的母体药物"（我已添加 +、: 和 "" 以进行澄清）。
没有确切我最终会使用什么，但是这些技术和功能为我提供了一个很好的起点，让我能够学习如何解决这个问题。功能已死。感谢您的教导！