【发布时间】:2015-02-20 03:33:27
【问题描述】:
我有一个数据集,它是一个大字符向量(1,024,459 个元素),由基因 ID 组成。它看起来像:
> length(allres)
[1] 1024459
>allres[1:10]
[1] "1" "1" "1" "1" "1" "1" "1" "10" "10" "100"
每个基因 ID 重复其在 RNA seq 运行中出现的次数(因此这里,基因“1”有 7 个读数,基因“10”有 2 个读数)。我想以 10,000 个读取间隔绘制每个读取次数识别的基因数量,这样我可以看到如果我随机采样 10,000 个读取、20,000、30,0000 等,我可以看到有多少个基因被识别出来。我制作了一个间距向量seq() 函数如下所示:
> gaps <- seq(10000, length(allres), by=10000)
但我不确定如何将其应用于我的 allres 矢量并绘制它。非常感谢任何帮助。
【问题讨论】:
标签: r subsampling