仍在努力处理大型数据集答案

【问题标题】：Still struggling with handling large data set仍在努力处理大型数据集
【发布时间】：2018-01-03 20:27:30
【问题描述】：

我一直在这个网站上阅读，但无法找到确切的答案。如果它已经存在，我为重新发布而道歉。

我正在处理非常大的数据集（6 亿行，64 列，在具有 32 GB RAM 的计算机上）。我真的只需要这些数据的小得多的子集，但是除了简单地用 fread 导入一个数据集并选择我需要的 5 列之外，我还在努力执行任何功能。之后，我尝试用我需要的特定条件覆盖我的数据集，但我达到了我的 RAM 上限并收到消息“错误：无法分配 4.5 GB 的向量大小。我将 ff 和 bigmemory 包作为替代方案，但似乎就像你不能在导入这些包之前进行子集化？除了升级计算机上的 RAM 之外，有没有解决这个问题的方法？

我正在尝试执行的任务：

>SampleTable<-fread("my.csv", header = T, sep = ",", select=c("column1", "column2", "column7", "column12", "column15"))

>SampleTable2<-SampleTable[SampleTable[,column1=="6" & column7=="1"]]

此时，我达到了我的内存上限。尝试使用另一个包但导入 6 亿行的所有 64 列会更好吗？我也不想为了执行一次导入而花费数小时。

【问题讨论】：

欢迎来到 SO。在大内存中有很多资源要读取。看看ff package。此外，您不会覆盖名为 SampleTable 的数据框，而是创建一个名为 SampleTable2 的新数据框。
将您的数据存储在数据库中，并在需要时仅检索您需要的位。
所以为了确保理解正确，你有一个600M行64列的文件。而且，您想将其读入数据框中，仅保留 64 列中的 5 列，并对行应用过滤器？
还有，这 5 列都是数字吗？
@sayaa 抱歉，我两种都试过了，一种是我创建了一个新的“SampleTable2”，另一种是我尝试覆盖“SampleTable”，但我仍然遇到同样的错误

标签： r memory-management data.table ff r-bigmemory

【解决方案1】：

如果您的数据集可以轻松解析（例如没有嵌入的逗号）：

library(data.table)

> fread('cat tmp.csv')
   col1 col2 col3 col4 col5 col6 col7 col8 col9 col10 col11 col12 col13 col14 col15 col16 col17
1:    6    1    1    1    1    1    1    1    1     1     1     1     1     1     1     1     1
2:    2    2    2    2    2    2    2    2    2     2     2     2     2     2     2     2     2
> fread("cat tmp.csv | awk -F ',' 'NR == 1 || ($1 == 6 && $7 == 1)'")
   col1 col2 col3 col4 col5 col6 col7 col8 col9 col10 col11 col12 col13 col14 col15 col16 col17
1:    6    1    1    1    1    1    1    1    1     1     1     1     1     1     1     1     1
> fread("cat tmp.csv | awk -F ',' 'NR == 1 || ($1 == 6 && $7 == 1) {print $1, $2, $7, $12, $15}'")
   col1 col2 col7 col12 col15
1:    6    1    1     1     1
>

【讨论】：

使用 awk 仅适用于 Unix/Linux，不适用于 Windows
@zacdav 添加了相关的库调用
@HywelMJ 是真的，cat 也是，虽然那不是重点。
@ClaytonStanley 我在 Windows 上运行它，有什么办法可以解决这个问题？
@swags Cygwin 安装。

【解决方案2】：

你可以做的是分块读取 CSV 文件：

# Define only the subset of columns
csv <- "my.csv"
colnames <- names(read.csv(csv, header = TRUE, nrows = 1))
colclasses <- rep(list(NULL), length(colnames))
ind <- c(1, 2, 7, 12, 15)
colclasses[ind] <- "double"

# Read header and first line
library(dplyr)
l_df <- list()
con <- file(csv, "rt")
df <- read.csv(con, header = TRUE, nrows = 1, colClasses = colclasses) %>%
  filter(V1 == 6, V7 == 1)
names(df) <- paste0("V", ind)
l_df[[i <- 1]] <- df

# Read all other lines and combine
repeat {
  i <- i + 1
  df <- read.csv(con, header = FALSE, nrows = 9973, colClasses = colclasses)
  l_df[[i]] <- filter(df, V1 == 6, V7 == 1)
  if (nrow(df) < 9973) break
}
df <- do.call("rbind", l_df)

9973 是一个任意素数，它几乎不可能成为nlines - 1 的除数。

【讨论】：

很好的答案，正是我需要的。感谢您的帮助。