【发布时间】:2015-03-12 21:09:22
【问题描述】:
我想折叠以下数据框
df
chr start stop gain loss pvalue_gain pvalue_loss
6 68838806 68857819 0 6 1.00000000 0.05105438
9 29779560 29788411 5 1 0.02320654 1.00000000
9 29788411 29809428 5 1 0.02320654 1.00000000
9 29809428 29831788 5 1 0.02320654 1.00000000
9 29831788 29899917 4 1 0.05145798 1.00000000
10 650294 727180 7 0 0.07759025 1.00000000
我想折叠每个 chr,其中连续行上的增益、损失、pvalue_gain 和 pvalue_loss 数字相同。但是,对于数据框折叠时的这些连续行,我想使用这些连续行的第一行的起始编号和这些连续行的最后一个停止编号。
例如-
chr start stop gain loss pvalue_gain pvalue_loss
9 29779560 29788411 5 1 0.02320654 1.00000000
9 29788411 29809428 5 1 0.02320654 1.00000000
9 29809428 29831788 5 1 0.02320654 1.00000000
将折叠为
chr start stop gain loss pvalue_gain pvalue_loss
9 29779560 29831788 5 1 0.02320654 1.00000000
最终输出:
chr start stop gain loss pvalue_gain pvalue_loss
6 68838806 68857819 0 6 1.00000000 0.05105438
9 29779560 29831788 5 1 0.02320654 1.00000000
9 29831788 29899917 4 1 0.05145798 1.00000000
10 650294 727180 7 0 0.07759025 1.00000000
我不确定如何使用聚合函数来执行此操作,希望能提供任何帮助。谢谢!
【问题讨论】:
标签: r bioinformatics collapse reshape