【发布时间】:2018-06-07 17:39:34
【问题描述】:
我有一个包含两列的数据框。
Col A 是参考向量,Col B 是参考中研究地点的对应向量。
我的问题是,在一个参考文献中可能有多个研究地点,而一个研究地点也可能在多个参考文献中找到。
我想对研究站点进行汇总,返回与研究站点链接的尽可能多的列。
类似:
Original table
-------------
ref | site
-------------
A | S1
-------------
A | S2
-------------
B | S1
-------------
New table
site | ref1 | ref2
-------------------
S1 | A | B
-------------------
S2 | A | NA
-------------------
spread 不起作用,因为有重复的 site。
【问题讨论】:
-
spread将工作,如果你这样做df %>% spread(key=ref,value=ref)。另一种方法是使用table(df$site,df$ref) -
这不起作用。
ref是非唯一的,不能是key。 -
它对我上面的数据和
tidyr 0.8.0有用 -
那是因为我的实际数据比这个简单的例子有更多的重复。