将字符串列表分成多个分区答案

【问题标题】：Breaking a list of character strings into partitions将字符串列表分成多个分区
【发布时间】：2012-05-23 18:20:36
【问题描述】：

这是我的问题。我有一个包含 200k 行的数据集。

每一行对应于对受试者进行的测试。
受试者的测试次数不等。
每个测试都有日期。

我想为每个测试分配一个索引。例如。科目 1 的第一次测试为 1，科目 1 的第二次测试为 2。科目 2 的第一次测试为 1，依此类推。

我的策略是获取唯一主题 ID 的列表，使用 lapply 将数据集子集到使用唯一主题 ID 的数据框列表中，每个主题都有自己的数据框并进行测试。理想情况下，我将能够对每个主题的每个数据框进行排序并为每个测试分配一个索引。

但是，在 200k x 32 数据帧上执行此操作会使我的笔记本电脑（i5、Sandy Bridge、4GB 内存）很快耗尽内存。

我有两个问题：

有没有更好的方法来做到这一点？
如果没有，我克服内存限制的唯一选择是将唯一的 SubjectID 列表分解为更小的集合，例如每个列表 1000 个 SubjectID，将其应用到数据集，最后将列表连接在一起。然后，我如何通过提供一个表示分区数的整数来创建一个函数来破坏我的 SubjectID 列表。例如BreakPartition(Dataset, 5) 会将数据集平均分成 5 个分区。

这是生成一些虚拟数据的代码：

UniqueSubjectID <- sapply(1:500, function(i) paste(letters[sample(1:26, 5, replace = TRUE)], collapse =""))
UniqueSubjectID <- subset(UniqueSubjectID, !duplicated(UniqueSubjectID))
Dataset <- data.frame(SubID = sample(sapply(1:500, function(i) paste(letters[sample(1:26, 5, replace = TRUE)], collapse ="")),5000, replace = TRUE))
Dates <- sample(c(dates = format(seq(ISOdate(2010,1,1), by='day', length=365), format='%d.%m.%Y')), 5000, replace = TRUE)
Dataset <- cbind(Dataset, Dates)

【问题讨论】：

标签： r subset plyr data.table

【解决方案1】：

我猜想分裂/lapply 是什么耗尽了内存。您应该考虑一种更加矢量化的方法。从您的示例代码稍作修改的版本开始：

n <- 200000
UniqueSubjectID <- replicate(500, paste(letters[sample(26, 5, replace=TRUE)], collapse =""))
UniqueSubjectID <- unique(UniqueSubjectID)
Dataset <- data.frame(SubID = sample(UniqueSubjectID , n, replace = TRUE))
Dataset$Dates <- sample(c(dates = format(seq(ISOdate(2010,1,1), by='day', length=365), format='%d.%m.%Y')), n, replace = TRUE)

假设您想要的是按日期顺序按主题计算测试的索引，您可以执行以下操作。

Dataset <- Dataset[order(Dataset$SubID, Dataset$Dates), ]
ids.rle <- rle(as.character(Dataset$SubID))
Dataset$SubIndex <- unlist(sapply(ids.rle$lengths, function(n) 1:n))

现在“数据集”中的“子索引”列包含测试的按主题编号索引。这需要非常少的内存，并在我的 4GB Core 2 duo 笔记本电脑上运行几秒钟。

【讨论】：

在您的示例中运行ddply 代码在我的机器上（i5 3.2 GHz）只需不到一秒的时间。
根据我的经验，ddply 比矢量化方法更慢并且使用更多内存。它确实有很好的语法。我认为我的机器比你的慢很多，我有一个 Core 2 duo @ 1.8 GHz。我承认我最初没有进行速度测试，但非正式地将 ddply 方法与 rle 方法进行了几次运行比较，system.time 在我的计算机上分别给出了 4.2 秒和 0.9 秒的运行时间。
可能使用data.table 的方法甚至可以节省更多时间（我认为），尤其是当数据集变得越来越大时。
这似乎完全有可能。
谢谢大家！这解决了我的问题并教会了我使用 rle。 @PaulHiemstra 您将如何使用 data.table 来加快速度？我试图将数据框变成数据表并运行相同的命令，但差异可以忽略不计。

【解决方案2】：

这听起来像是plyr 包的工作。我会以这种方式添加索引：

require(plyr)
system.time(new_dat <- ddply(Dataset, .(SubID), function(dum) {
    dum = dum[order(dum$SubID, dum$Dates), ]
    mutate(dum, index = 1:nrow(dum))
  }))

这会将数据集分成每个SubID 的块，并添加一个索引。新对象将所有SubID 组合在一起，并按时间排序。您的示例在我的机器上花费了大约 2 秒，并且几乎没有使用内存。我不确定ddply 如何适应您的数据大小和特征，但您可以尝试。我这工作不够快，一定要看看data.table 包。 blog post of mine 比较（以及其他）ddply 和 data.table 可以作为一些灵感。

【讨论】：