【发布时间】:2018-08-01 15:29:40
【问题描述】:
我有一个 (~20000x1) 的大型数据集。并非所有字段都已填写,换句话说,数据确实存在缺失值。每个特征都是一个字符串。
我已经完成了以下代码运行:
输入:
data <- read.csv("data.csv", header=TRUE, quote = "")
datan <- read.table("data.csv", header = TRUE, fill = TRUE)
第二个代码的输出:
扫描错误(文件 = 文件,什么 = 什么,sep = sep,quote = quote,dec = dec,: 第 1 行没有 80 个元素
输入:
datar <- read.csv("data.csv", header = TRUE, na.strings = NA)
输出:
警告信息: 在 scan(file = file, what = what, sep = sep, quote = quote, dec = dec, : 带引号的字符串中的 EOF
我看到了基本上 4 个问题。其中两个问题是上述错误消息。第三个是如果它没有吐出错误消息,当我查看全局环境窗口时,我发现我的所有行都没有被计算在内,比如缺少大约 14000 个样本,但特征编号是正确的。我看到的另一个问题是,并非所有样本都被计算在内,特征编号也不正确。
我该如何解决这个问题??
【问题讨论】:
-
你的数据中有逗号吗?
-
通常这意味着您不完全了解文件的格式。某处有不寻常的字符、不匹配的引号、包含逗号的字段等。但没有办法我们来解决这个问题,因为我们没有你的文件。
-
不,但是输入是否在末尾有类似的句点有关系吗?一个例子是“#DogRules!!!我很高兴看到狗。”
-
"它的非结构化数据" ...这不是 CSV 吗?
-
最好转至
bash或dos命令行,具体取决于您的操作系统。输入head -3 data.csv并查看它。如果您仍然不确定,请将此示例发布到您的问题中。否则这是我的字符串问题有多长。
标签: r csv read.table read.csv