【发布时间】:2021-07-01 23:31:52
【问题描述】:
我正在努力提高我正在编写的函数的速度(用于差异度量),它在数学上与欧几里得距离函数非常相似。但是,当我将我的函数与 cluster 包中的 daisy 函数中实现的函数进行比较时,我发现速度上有很大差异,daisy 的性能要好得多。鉴于(我假设)由于需要在所有变量上将每个对象与其自身进行比较(其中n 是对象数量,p 是变量数量),因此差异测量需要 O(n x p) 时间,我相对于我简单直接的实现,很难理解 daisy 函数如何表现得如此出色(从我所做的几个实验来看,接近恒定时间)。我在下面展示了我用来实现和测试的代码。我曾尝试查看r 源代码以实现daisy 函数,但我发现它很难理解。我发现没有嵌套的for 循环。非常感谢任何有助于理解为什么这个函数执行得如此之快以及我如何修改我的代码以具有相似速度的帮助。
euclidean <- function (df){
no_obj <- nrow(df)
dist <- array(0, dim = c(no_obj, no_obj))
for (i in 1:no_obj){
for (j in 1:no_obj){
dist_v <- 0
if(i != j){
for (v in 1:ncol(df)){
dist_v <- dist_v + sqrt((df[i,v] - df[j,v])^2)
}
}
dist[i,j] <- dist_v
}
}
return(dist)
}
data("iris")
tic <- Sys.time()
dst <- euclidean(iris[,1:4])
time <- difftime(Sys.time(), tic, units = "secs")[[1]]
print(paste("Time taken [Euclidean]: ", time))
tic <- Sys.time()
dst <- daisy(iris[,1:4])
time <- difftime(Sys.time(), tic, units = "secs")[[1]]
print(paste("Time taken [Daisy]: ", time))
【问题讨论】:
-
不是专家,但基于source code,“数字运算”是使用 fortran 子例程完成的。我不知道该方法是否使用嵌套的 for 循环(我还没有学过 fortran),但是使用较低级别的语言可以显着加快运行时间。如果您想提高代码的速度,有两个可能的选择:对其进行矢量化(例如stackoverflow.com/questions/10728137/…),或使用较低级别的语言(C/C++/fortran)来完成“繁重的工作”。
-
我的函数也返回“NULL” - 是不是有错字?
-
@jared_mamrot 哦,非常感谢。我看到了 fortran-y 的东西,但无法真正理解它。我现在正在检查矢量化选项。感谢您指出我忘记返回
dist,哈哈。
标签: r performance similarity r-daisy