【发布时间】:2017-12-12 01:23:25
【问题描述】:
我有很多想要阅读的文件。文件格式如下图。
我尝试了许多包格式来阅读这篇文章,但它们似乎都不起作用。应跳过以“-”开头的行。文件中有大约 102 列,但我只显示了一些。以“-”开头的行实际上是在第 1 行、第 3 行和最后一行。
文件格式如下
------------------------------------------------
|Delivery |Created by |Time |Created on|SDst|
------------------------------------------------
|84181375 |BATCHJOBMGR|19:33:47|01/05/2017| |
|84181376 |BATCHJOBMGR|19:33:47|01/05/2017| |
------------------------------------------------
我尝试了以下方法:
使用 read.table
temp <- read.delim(file="LIKP_01012016_01312016.txt", header=TRUE,
stringsAsFactors=FALSE,
strip.white=TRUE, sep="|", skip = 1, comment.char = "-")
使用数据表
temp <- fread(input="LIKP_01012017_01312017.txt",
stringsAsFactors=FALSE, strip.white=TRUE,
sep="|",quote = "-", skip=1)
显然我做的不对。您能帮我阅读这些文件吗?
提前致谢。
萨蒂什
【问题讨论】:
-
以
|分隔的文件称为 PSV(管道分隔值),类似于 CSV 或 TSV(制表符分隔)。而我们忽略的------------------行。可能会进行一次预处理以删除它们。第 1-3 行是您的标题,但只有第 2 行有意义。
标签: r csv file-format read.csv