【发布时间】:2017-08-20 07:12:26
【问题描述】:
我有一个大约 10,000 行的逗号分隔数据集。在执行 read.csv 时,R 创建的数据帧行数少于原始文件。它排除/拒绝了 200 行。 当我在 Excel 中打开 csv 文件时,该文件看起来没问题。该文件的格式适合行分隔符和字段分隔符(根据 Excel 完成的解析)。
我已经确定了文件中被拒绝的行号,但我无法通过浏览它们来确定原因。
有什么方法可以查看日志或其他内容,包括 R 拒绝这些记录的原因?
【问题讨论】:
-
这 200 个拒绝是随机播种的,还是它们位于您数据的特定区域?你见过
http://stackoverflow.com/questions/13706188/importing-csv-file-into-r-numeric-values-read-as-characters -
它们位于数据的一个区域中。它们是连续的记录
-
与您分享的链接中的案例不同,我没有在 Excel 上进行任何数据操作。我在 R 上打开了原始数据。我只在 Excel 上打开了数据以查看已解析的数据。没有更改文件。
-
请您打开文本文件中的 csv 文件并将其中几行复制到您的帖子中。还请包括您用于将数据读入 R 的确切代码
-
一些猜测:引号有问题(你在某处有一个未转义的引号;可能在被跳过的行之前的行中);这些行以
#开头。
标签: r