【发布时间】:2016-08-02 04:33:57
【问题描述】:
我有数百个 .csv 文件需要使用 fread 读取并保存为一个数据表。每个 .csv 的基本结构都相同。有需要跳过的标题信息(很容易使用 skip = )。我很难跳过每个 .csv 文件的最后一行。每个 .csv 文件都有不同的行数。
如果我在 Test 文件夹中只有一个文件,此脚本会完美跳过第一行(使用 skip = )和最后一行(使用 nrows = ):
file <- list.files("Q:/Test/", full.names=TRUE)
all <- fread(file, skip = 7, select = c(1:7,9),
nrows = length(readLines(file))-9)
在Test文件夹中保存多个文件时,这是我尝试的代码:
file <- list.files("Q:/Test/", full.names=TRUE)
L <- lapply(file, fread, skip = 7, select = c(1:7,9),
nrows = length(readLines(file))-9)
dt <- rbindlist(L)
它不会创建 L 并给我这个错误:
Error in file(con, "r") : invalid 'description' argument
当每个 .csv 的行数不同时,如何跳过每个 .csv 的最后一行?
我正在使用 data.table 版本 1.9.6。谢谢。
【问题讨论】:
-
不要使用
readLines,那样会浪费很多精力。试试这里的方法:stackoverflow.com/questions/3137094/… -
也许
nrow可以使用负值来跳过文件底部的行。归档#1643。 -
也许
head -n-1直接传递给fread。或grep -v删除尾随页脚文本。请参阅this new page 的第 1 部分。 -
this answer 也可能有帮助。
-
@MichaelChirico 我喜欢这种方法,并正在努力解决它。我在 Windows 7 上使用 Rstudio,所以我相信我需要使用 Cygwin。到目前为止,我还不能让它工作。
标签: r data.table