【发布时间】:2015-05-22 16:01:49
【问题描述】:
使用 distinct 与 unique 时,结果行数似乎不同。我正在使用的数据集非常庞大。希望代码可以理解。
dt2a <- select(dt, mutation.genome.position,
mutation.cds, primary.site, sample.name, mutation.id) %>%
group_by(mutation.genome.position, mutation.cds, primary.site) %>%
mutate(occ = nrow(.)) %>%
select(-sample.name) %>% distinct()
dim(dt2a)
[1] 2316382 5
## Using unique instead
dt2b <- select(dt, mutation.genome.position, mutation.cds,
primary.site, sample.name, mutation.id) %>%
group_by(mutation.genome.position, mutation.cds, primary.site) %>%
mutate(occ = nrow(.)) %>%
select(-sample.name) %>% unique()
dim(dt2b)
[1] 2837982 5
这是我正在使用的文件:
sftp://sftp-cancer.sanger.ac.uk/files/grch38/cosmic/v72/CosmicMutantExport.tsv.gz
dt = fread(fl)
【问题讨论】:
-
这可能需要您做一些工作,但一个小的可重现示例会更好。
-
对于小型数据集,两者给出的答案相同。
标签: r data.table dplyr