R/Optimize 循环中的备用循环函数答案

【问题标题】：Alternate loop functions in R/Optimize loopR/Optimize 循环中的备用循环函数
【发布时间】：2014-04-04 04:34:31
【问题描述】：

我正在尝试找出关联交易。从第一个 TRUE 到最后一个 TRUE，它被认为是一个事务，并在事务中找出 tpt_mode 是混合的还是纯的。然后，插入一个包含新数据的新列，但目前 for 循环正在处理少量数据，当涉及大量数据时，它往往运行得非常慢。如何优化 for 循环以加快性能？

firstid<-1
currTpt <- 'NA'
count<-0
n <- nrow(tnx)
for (i in 1:n) {

  if(tnx$FIRST[i]){

    firstid<-i
    currTpt <-tnx$mode[i]
   count <-1
  }
   else{
   count <- count + 1
  }
  if(as.character(tnx$mode[i])!= as.character(currTpt)){
    currTpt <- 'both'
  }
  if(tnx$LAST[i])
  {
    tnx$final_end_loc[firstid]<-tnx$end_loc[i]    
    tnx$final_end_date[firstid]<-as.character(tnx$end_date[i])  
    tnx$final_end_time[firstid]<-as.character(tnx$end_time[i])
    tnx$final_mode[firstid]<-as.character(currTpt)
    tnx$final_count[firstid] <- count
  }
  }
final_tnx<-subset(tnx,FIRST==TRUE,c("id","start_date","start_time","final_end_date","final_end_time","start_loc","final_end_loc","final_mode","final_count"))

示例数据：编辑

   tnx<- data.frame(
  id=c("A","A","A","A","C","C","D","D","E"),
  mode=c("on","on","off","on","on","off","off","off","on"),
  start_time=c("8:20:22","17:20:22","17:45:22","18:20:22","16:35:22","17:20:22","15:20:22","16:00:22","12:20:22"),
  end_time=c("8:45:22","17:30:22","18:00:22","18:30:22","17:00:22","17:50:22","15:45:22","16:14:22","27:50:22"),
  start_loc=c("12","12","207","12","11","65","222","32","12"),
  end_loc=c(31,31,29,11,22,12,45,31,11),
  start_date=c("6/3/2012","6/3/2012","6/3/2012","6/3/2012","6/3/2012","6/3/2012","6/3/2012","6/3/2012","6/3/2012"),
  end_date=c("6/3/2012","6/3/2012","6/3/2012","6/3/2012","6/3/2012","6/3/2012","6/3/2012","6/3/2012","6/3/2012"),
  FIRST=c(T,T,F,F,T,F,T,F,T),
  LAST=c(T,F,F,T,F,T,F,T,T)
)

图片形式的样本数据集：

预期结果：

提前致谢。

【问题讨论】：

什么是 f？它不见了。
我很确定这可以在一行中完成，但我无法弄清楚您要做什么。你能解释一下并假装我们不知道什么是连接交易......？
抱歉，打错了。我已经修改了。
为什么把同一个问题删了再发？原问题：stackoverflow.com/questions/22852046/optimize-r-for-loop
Close votes 或 down votes 意味着您应该改进问题，您已经这样做了。关闭投票将过期。如果您改进了问题，并且关闭不再合适，则可能不会累积更多的关闭投票。这次太晚了，因为您已经打开了一个完全重复的问题，如果您取消删除另一个问题，肯定会关闭另一个问题，但是下一次，改进并且不要关闭。你在删除和重新发布之前做得很好。

标签： r performance loops optimization for-loop

【解决方案1】：

要获得结果，您不需要循环。如果您检查交易的开始和结束位置并相应地编制索引，您的代码将简化为

nLAST <- which(tnx$LAST)
nFIRST <- which(tnx$FIRST)
count <- sapply(1:length(nFIRST),FUN = function(i){nFIRST[i]:nLAST[i]})
mode <- unlist(lapply(count,FUN=function(x){ifelse(length(unique(tnx$mode[x]))==1,
                      as.character(unique(tnx$mode[x])),'both')}))
final_tnx <- data.frame(id = tnx$id[nFIRST],start_date = tnx$start_date[nFIRST],
    start_time = tnx$start_time[nFIRST],final_end_date = tnx$end_date[nLAST],
    final_end_time = tnx$end_time[nLAST], start_loc=tnx$start_loc[nFIRST], 
    final_end_loc = tnx$end_loc[nLAST],final_mode =  mode, 
    final_count = nLAST - nFIRST +1)

这肯定会加快速度，并在更大的数据集上表现良好。

编辑：当允许模式多次更改时，您必须检查所有子集的唯一性。在count 中，我为每条记录构建了一个索引序列列表。然后在索引列表上应用一个函数来检查子集中是否存在一种或多种模式。

【讨论】：

在循环外或无循环索引要快得多。 :)
@wici 现在比较模式取决于第一条和最后一条记录。如果在模式关闭之间，比如说 ID A，然后模式是 on、on、off、on。然后，模式仍然打开，它不是两者兼而有之。我该如何解决这个问题？谢谢。
@wici 我已经更新了示例数据。你有什么线索可以解决吗？

【解决方案2】：

我确信还有更多改进要做，但如果您在循环中尽可能少地索引并将数据指定为向量，您会看到一些改进。

require("rbenchmark")

###Specify data as vectors
FIRST <- tnx$FIRST
mode <- tnx$mode
LAST <- tnx$LAST
final_end_loc <- tnx$final_end_loc
final_end_date <- tnx$final_end_date
final_end_time <- tnx$final_end_time
final_mode <- tnx$final_mode
final_count <- tnx$final_count
end_date <- tnx$end_date
end_time <- tnx$end_time
end_loc <- tnx$end_loc

benchmark(for (i in 1:n) {

   if(FIRST[i]){

    firstid<-i
    currTpt <-mode[i]
    count <-1
}
else{
    count <- count + 1
}
if(as.character(mode[i])!= as.character(currTpt)){
    currTpt <- 'both'
}
if(LAST[i])
{
    final_end_loc[firstid]<-end_loc[i]    
    final_end_date[firstid]<-as.character(end_date[i])  
    final_end_time[firstid]<-as.character(end_time[i])
    final_mode[firstid]<-as.character(currTpt)
    final_count[firstid] <- count
}
})

 replications elapsed relative user.self sys.self user.child sys.child
1          100    0.11        1      0.11        0         NA        NA

现在你的循环

   replications elapsed relative user.self sys.self user.child sys.child
1          100    0.18        1      0.19        0         NA        NA

无法确定这是否会在大型数据集上表现良好，但过去将索引保持在最低限度对我有用。如果这对您来说速度不够快或不适用于大数据，可以在这里找到一篇好帖子Speed up the loop operation in R。

【讨论】：

require() 有什么作用？
require() 与 library() 相同，加载包的命名空间并附加它，只是它在找不到包时给出警告而不是错误。 require()
顺便说一句，Hadley Wickham 的Advanced R Programming中有一个关于性能的精彩章节@