【问题标题】:Counting shared and unique markers across several groups计算多个组中的共享标记和唯一标记
【发布时间】:2019-02-28 06:39:45
【问题描述】:

我在几个群体中输入了一组标记。一些标记是跨组共享的(可以是所有组或更少,例如 5 个组中只有 3 个共享一个标记),而其他标记对于特定人群是唯一的。一些标记可能在某些人群中不存在,但在其他人群中存在。我想计算每个人群独有的标记。 我有 5 个单独的文件列出了在每个群体中检测到的标记,输入文件是;

Markers_Group_1
snp1
snp2
snp3
snp4
snp5
snp6
snp7
snp8
snp9
snp10
snp11...snp100

第 2 组的输入文件可能有 snps 5、6、9、20-70。第 3 至 5 组也是如此;即它们携带不同的snps组合。因此,如果将所有 5 个文件合并到一个文件中,就会有一些单元格是空的。

【问题讨论】:

    标签: r


    【解决方案1】:

    我会使用 Excel VLookup。

    https://support.office.com/en-us/article/vlookup-function-0bbc8083-26fe-4963-8ab8-93a18ad188a1

    这可以给你一些看起来像这样的东西。

    ALL MARKERS      File1     File2    File3    File4    last_file_with_marker   COUNT
    snp1              snp1      snp1     snp1     snp1           File4               4
    snp2              snp2      snp2              snp2           File4               3
    snp3              snp3      snp3     snp3                    File3               3
    snp4                        snp4                             File2               1
    snp5              snp5      snp5     snp5     snp5           File4               4
    

    如果 File1 在工作表 2 上,则 File1、File2、File3、File4 列中所有单元格的公式可能类似于: =VLOOKUP($A2&"",Sheet2!Data,1,FALSE)

    然后你可以在下一列添加一些东西(标题:last_file_with_marker) =查找(A2,B2:E2,$B$1:$E$1)

    还有一个计数列,用于查找只有一个的列。 =COUNTIF(B2:E2, A2)

    您可以对计数列进行排序以找到具有唯一标记的列。

    【讨论】:

    • 谢谢,但我一直在寻找在 r 软件中使用的高级自动化解决方案,因为我在大型组(n=3000 个人)中输入了大约 500 个 snps。
    猜你喜欢
    • 1970-01-01
    • 2022-11-11
    • 2016-06-29
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-09-02
    • 1970-01-01
    相关资源
    最近更新 更多