【问题标题】:Issues reading data as csv in R在 R 中以 csv 格式读取数据的问题
【发布时间】:2018-08-01 15:29:40
【问题描述】:

我有一个 (~20000x1) 的大型数据集。并非所有字段都已填写,换句话说,数据确实存在缺失值。每个特征都是一个字符串。

我已经完成了以下代码运行:

输入:

data <- read.csv("data.csv", header=TRUE, quote = "")
datan <- read.table("data.csv", header = TRUE, fill = TRUE)

第二个代码的输出:

扫描错误(文件 = 文件,什么 = 什么,sep = sep,quote = quote,dec = dec,: 第 1 行没有 80 个元素

输入:

datar <- read.csv("data.csv", header = TRUE, na.strings = NA)

输出:

警告信息: 在 scan(file = file, what = what, sep = sep, quote = quote, dec = dec, : 带引号的字符串中的 EOF

我看到了基本上 4 个问题。其中两个问题是上述错误消息。第三个是如果它没有吐出错误消息,当我查看全局环境窗口时,我发现我的所有行都没有被计算在内,比如缺少大约 14000 个样本,但特征编号是正确的。我看到的另一个问题是,并非所有样本都被计算在内,特征编号也不正确。

我该如何解决这个问题??

【问题讨论】:

  • 你的数据中有逗号吗?
  • 通常这意味着您不完全了解文件的格式。某处有不寻常的字符、不匹配的引号、包含逗号的字段等。但没有办法我们来解决这个问题,因为我们没有你的文件。
  • 不,但是输入是否在末尾有类似的句点有关系吗?一个例子是“#DogRules!!!我很高兴看到狗。”
  • "它的非结构化数据" ...这不是 CSV 吗?
  • 最好转至bashdos 命令行,具体取决于您的操作系统。输入head -3 data.csv 并查看它。如果您仍然不确定,请将此示例发布到您的问题中。否则这是我的字符串问题有多长。

标签: r csv read.table read.csv


【解决方案1】:

试试comment.char = "" 的参数以及引用。哈希 (#) 正在被 R 作为注释读取,并将缩短该行。

【讨论】:

    【解决方案2】:

    您可以使用 Notepad++ 打开 CSV 吗?这将允许您查看“不可见”字符和任何其他不可打印的字符。该文件可能不包含您认为它包含的内容!解决采购问题后,您可以使用选择器工具选择 CSV 文件。

    filename <- file.choose()
    data <- read.csv(filename, skip=1)
    name <- basename(filename)
    

    或者,硬编码路径,然后将数据读入 R。

    # Read CSV into R
    MyData <- read.csv(file="c:/your_path_here/Data.csv", header=TRUE, sep=",")
    

    【讨论】:

      猜你喜欢
      • 2020-06-16
      • 2018-06-22
      • 2020-01-16
      • 1970-01-01
      • 1970-01-01
      • 2020-10-22
      • 2015-05-19
      • 1970-01-01
      • 2011-09-24
      相关资源
      最近更新 更多