【发布时间】:2015-09-24 01:33:31
【问题描述】:
我目前正在尝试通过 pvclust 库运行并行层次聚类,使用命令 parPvclust。我使用的数据集是 57 行乘 30000 列。我运行程序。从我的 nohup.out 我得到以下信息:
`[1] "2015-09-23 11:31:31 EDT"
[1] "Data transposed"
[1] "2015-09-23 11:31:39 EDT"
[1] "start clustering"
Multiscale bootstrap...`
然后与我的 nohup.out 分开。命令行吐出Killed,但如果我运行top,它们仍然是运行的R进程。这是一张照片:
这是我的脚本。
#parallel clustering via pvclust library
library(data.table)
library(reshape2)
library(parallel)
library(pvclust)
nabec <- fread("/labshare/Nick/projects/nabec/pilot/normalized.transcripts.usable.autosomal.1.txt")
#transpose file
nabecCohort.T <- dcast.data.table(melt(nabec, id.vars = "ID"), variable ~ ID)
testNabec <- nabecCohort.T[2:58, 2:dim(nabecCohort.T)[2], with = F]
testNabec <- sapply(testNabec, as.numeric)
Sys.time()
print("Data transposed")
cl <- makeCluster(23)
Sys.time()
print("start clustering")
nabec.pv <- parPvclust(cl,testNabec[1:57,],nboot=1000)
我找到了这篇文章,但它并没有太大帮助。
我还能解决哪些其他问题?有什么想法吗?我没有收到诸如“无法分配大小的向量..”之类的错误。
编辑:对于数据集的较小子样本(57 行 * 1000 列),脚本也可以正常运行
【问题讨论】:
-
C 和 Fortran 代码中的任何类型的编程错误都可能导致此问题。消息
Killed发生在进程被杀死时,例如由系统或管理员。例如,您可能需要检查dmesg的输出 - 因为它看起来确实内存不足。 -
酷谢谢!基于
dmesg。我认为你的权利@Anony-Mousse
标签: r parallel-processing cluster-computing cluster-analysis