【发布时间】:2012-11-14 07:32:19
【问题描述】:
我的目标是“求和”两个不兼容的矩阵(具有不同维度的矩阵)使用(并保留)行名和列名。
我想出了这种方法:将矩阵转换为 data.table 对象,将它们连接起来,然后对列向量求和。
一个例子:
> M1
1 3 4 5 7 8
1 0 0 1 0 0 0
3 0 0 0 0 0 0
4 1 0 0 0 0 0
5 0 0 0 0 0 0
7 0 0 0 0 1 0
8 0 0 0 0 0 0
> M2
1 3 4 5 8
1 0 0 1 0 0
3 0 0 0 0 0
4 1 0 0 0 0
5 0 0 0 0 0
8 0 0 0 0 0
> M1 %ms% M2
1 3 4 5 7 8
1 0 0 2 0 0 0
3 0 0 0 0 0 0
4 2 0 0 0 0 0
5 0 0 0 0 0 0
7 0 0 0 0 1 0
8 0 0 0 0 0 0
这是我的代码:
M1 <- matrix(c(0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0), byrow = TRUE, ncol = 6)
colnames(M1) <- c(1,3,4,5,7,8)
M2 <- matrix(c(0,0,1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0), byrow = TRUE, ncol = 5)
colnames(M2) <- c(1,3,4,5,8)
# to data.table objects
DT1 <- data.table(M1, keep.rownames = TRUE, key = "rn")
DT2 <- data.table(M2, keep.rownames = TRUE, key = "rn")
# join and sum of common columns
if (nrow(DT1) > nrow(DT2)) {
A <- DT2[DT1, roll = TRUE]
A[, list(X1 = X1 + X1.1, X3 = X3 + X3.1, X4 = X4 + X4.1, X5 = X5 + X5.1, X7, X8 = X8 + X8.1), by = rn]
}
输出:
rn X1 X3 X4 X5 X7 X8
1: 1 0 0 2 0 0 0
2: 3 0 0 0 0 0 0
3: 4 2 0 0 0 0 0
4: 5 0 0 0 0 0 0
5: 7 0 0 0 0 1 0
6: 8 0 0 0 0 0 0
然后我可以将此 data.table 转换回 matrix 并修复行名和列名。
问题是:
-
如何概括这个过程?
我需要一种自动创建
list(X1 = X1 + X1.1, X3 = X3 + X3.1, X4 = X4 + X4.1, X5 = X5 + X5.1, X7, X8 = X8 + X8.1)的方法,因为我希望将此函数应用于事先不知道维度(和行/列名称)的矩阵。总之,我需要一个 merge 过程,其行为与描述的一样。
还有其他实现相同目标的策略/实现同时更快、更通用吗? (希望有
data.table怪物帮帮我)这个过程可以同化什么样的加入(内部、外部等)?
提前致谢。
p.s.:我使用的是 data.table 版本 1.8.2
编辑 - 解决方案
@Aaron 解决方案。没有外部库,只有基础 R。它也适用于矩阵列表。
add_matrices_1 <- function(...) {
a <- list(...)
cols <- sort(unique(unlist(lapply(a, colnames))))
rows <- sort(unique(unlist(lapply(a, rownames))))
out <- array(0, dim = c(length(rows), length(cols)), dimnames = list(rows,cols))
for (m in a) out[rownames(m), colnames(m)] <- out[rownames(m), colnames(m)] + m
out
}
@MadScone 解决方案。使用reshape2 包。它仅适用于每次调用两个矩阵。
add_matrices_2 <- function(m1, m2) {
m <- acast(rbind(melt(M1), melt(M2)), Var1~Var2, fun.aggregate = sum)
mn <- unique(colnames(m1), colnames(m2))
rownames(m) <- mn
colnames(m) <- mn
m
}
@Aaron 解决方案。使用Matrix 包。它仅适用于稀疏矩阵,也适用于它们的列表。
add_matrices_3 <- function(...) {
a <- list(...)
cols <- sort(unique(unlist(lapply(a, colnames))))
rows <- sort(unique(unlist(lapply(a, rownames))))
nrows <- length(rows)
ncols <- length(cols)
newms <- lapply(a, function(m) {
s <- summary(m)
i <- match(rownames(m), rows)[s$i]
j <- match(colnames(m), cols)[s$j]
ilj <- i < j
sparseMatrix(
i = ifelse(ilj, i, j),
j = ifelse(ilj, j, i),
x = s$x,
dims = c(nrows, ncols),
dimnames = list(rows, cols),
symmetric = TRUE
)
})
Reduce(`+`, newms)
}
BENCHMARK(使用 microbenchmark 包运行 100 次)
Unit: microseconds
expr min lq median uq max
1 add_matrices_1 196.009 257.5865 282.027 291.2735 549.397
2 add_matrices_2 13737.851 14697.9790 14864.778 16285.7650 25567.448
无需评论基准测试:@Aaron 解决方案获胜。
详情
有关性能的见解(取决于矩阵的大小和稀疏性),请参阅 @Aaron 的编辑(以及稀疏矩阵的解决方案:add_matrices_3)。
【问题讨论】:
-
%ms%来自哪里? -
%ms%是一个 ipotetic 运算符,实现了所描述的行为 -
您的矩阵有多大,执行时间的差异很重要?他们总是有很多零吗?如果是这样,可能会有更快的替代方法使用与@MadScone 的解决方案在本质上更相似的稀疏矩阵。
-
是的,它们总是有很多零。对于那个简单的基准,我使用了上面发布的矩阵。稀疏矩阵是另一个很好的技巧 ;) ..
-
大小和稀疏性都会对首选解决方案产生巨大影响。请参阅下面的编辑。
标签: r join matrix merge data.table