【发布时间】:2013-05-15 02:22:56
【问题描述】:
我有这行 R 代码:
croppedDNA <- completeDNA[,apply(completeDNA,2,function(x) any(c(FALSE,x[-length(x)]!=x[-1])))]
它的作用是识别 DNA 序列矩阵(1 行 = 一个序列)中不通用(信息丰富)的位点(列),并将它们从矩阵中子集化以制作新的“裁剪矩阵”,即摆脱值相同的所有列。对于大型数据集,这大约需要 6 秒。我不知道我是否可以在 C++ 中更快地做到这一点(仍然是 C++ 的初学者),但尝试一下对我有好处。我的想法是使用 Rcpp,遍历 CharacterMatrix 的列,拉出列(站点)作为 CharacterVector 检查它们是否相同。如果它们相同,请记录该列号/索引,继续所有列。然后最后制作一个仅包含这些列的新 CharacterMatrix。重要的是,我将行名和列名保持在矩阵的“R 版本”中,即如果列存在,列名也应该如此。
我已经写了大约两分钟,到目前为止我所拥有的是(未完成):
#include <Rcpp.h>
#include <vector>
using namespace Rcpp;
// [[Rcpp::export]]
CharacterMatrix reduce_sequences(CharacterMatrix completeDNA)
{
std::vector<bool> informativeSites;
for(int i = 0; i < completeDNA.ncol(); i++)
{
CharacterVector bpsite = completeDNA(,i);
if(all(bpsite == bpsite[1])
{
informativeSites.push_back(i);
}
}
CharacterMatrix cutDNA = completeDNA(,informativeSites);
return cutDNA;
}
我在这件事上走对了吗?有没有更简单的方法。我的理解是我需要 std::vector 因为它们很容易生长(因为我事先不知道我要保留多少列)。通过索引,我是否需要在最后对 informationativeSites 向量 +1(因为 R 索引从 1 开始,C++ 索引从 0 开始)?
谢谢, 本·W.
【问题讨论】:
-
好的开始,但你不能在 C/C++ 中使用负索引 ...
-
@DirkEddelbuettel,是的,你可以,只要你使用它从数组的中间开始或重载它以处理负数。例如,
int arr[] = {1, 2, 3, 4, 5}; int *mid = &arr[2]; int x = mid[-1]; //x = 2 -
您能否确认
class(completeDNA)是matrix而不是data.frame。apply速度很慢,在跳转到 c++ 之前,可能需要对 R 代码进行一些简单的改进。 -
那是毛骨悚然。索引从 0 到 n-1,索引从(几乎总是)与您要索引的“事物”的开始相对应的位置开始。
-
是的,completeDNA 属于矩阵类,由 'class(completeDNA)' 确认。