在 R 中以 csv 格式读取数据的问题答案

【问题标题】：Issues reading data as csv in R在 R 中以 csv 格式读取数据的问题
【发布时间】：2018-08-01 15:29:40
【问题描述】：

我有一个 (~20000x1) 的大型数据集。并非所有字段都已填写，换句话说，数据确实存在缺失值。每个特征都是一个字符串。

我已经完成了以下代码运行：

输入：

data <- read.csv("data.csv", header=TRUE, quote = "")
datan <- read.table("data.csv", header = TRUE, fill = TRUE)

第二个代码的输出：

扫描错误（文件 = 文件，什么 = 什么，sep = sep，quote = quote，dec = dec，：第 1 行没有 80 个元素

输入：

datar <- read.csv("data.csv", header = TRUE, na.strings = NA)

输出：

警告信息：在 scan(file = file, what = what, sep = sep, quote = quote, dec = dec, : 带引号的字符串中的 EOF

我看到了基本上 4 个问题。其中两个问题是上述错误消息。第三个是如果它没有吐出错误消息，当我查看全局环境窗口时，我发现我的所有行都没有被计算在内，比如缺少大约 14000 个样本，但特征编号是正确的。我看到的另一个问题是，并非所有样本都被计算在内，特征编号也不正确。

我该如何解决这个问题？？

【问题讨论】：

你的数据中有逗号吗？
通常这意味着您不完全了解文件的格式。某处有不寻常的字符、不匹配的引号、包含逗号的字段等。但没有办法我们来解决这个问题，因为我们没有你的文件。
不，但是输入是否在末尾有类似的句点有关系吗？一个例子是“#DogRules！！！我很高兴看到狗。”
"它的非结构化数据" ...这不是 CSV 吗？
最好转至bash 或dos 命令行，具体取决于您的操作系统。输入head -3 data.csv 并查看它。如果您仍然不确定，请将此示例发布到您的问题中。否则这是我的字符串问题有多长。

【解决方案1】：

试试comment.char = "" 的参数以及引用。哈希 (#) 正在被 R 作为注释读取，并将缩短该行。

【讨论】：

【解决方案2】：

您可以使用 Notepad++ 打开 CSV 吗？这将允许您查看“不可见”字符和任何其他不可打印的字符。该文件可能不包含您认为它包含的内容！解决采购问题后，您可以使用选择器工具选择 CSV 文件。

filename <- file.choose()
data <- read.csv(filename, skip=1)
name <- basename(filename)

或者，硬编码路径，然后将数据读入 R。

# Read CSV into R
MyData <- read.csv(file="c:/your_path_here/Data.csv", header=TRUE, sep=",")

【讨论】：