【发布时间】:2021-11-27 00:00:41
【问题描述】:
我的 CSV 文件有大约 2M(百万)条记录。如果我用excel打开它,我只能查看大约1M(我相信excel会限制它)。当我尝试在 RStudio 中查看 csv 时,它并没有让我看到所有 2M 记录。它只向我显示了与 excel 相同数量的记录。 如何查看 RStudio 中所有 2M 的记录?
如果您好奇,我正在使用下面的代码来读取文件。我可以在 excel 中查看与在 R 中完全相同数量的记录。但我知道还有更多记录。
df <- read.csv("bigfile.csv", header = TRUE)
【问题讨论】:
-
多少列? 200 万条记录现在已经不多了……
-
@RuiBarradas 有 16 列
-
我会尝试给出一个答案:您在 R 中查看不小的数据集(并且 2M 行与 bigdata 相差甚远)的方式是使用代码 -您使用代码来检查缺失或不一致的值,使用代码来查找模式并使用代码来操作它。虽然 2M 不是大数据,但无论如何都要进行目视检查……至少这是我的看法
-
我删除了 rstudio 和 excel 标签,因为它们实际上并不相关。您可以在 RStudio 之外使用
View()以及使用它。否则,您希望通过查看那么多行来实现什么?如果不进行某种形式的聚合,您当然无法理解它,因此除了确保数据格式正确之外,您不需要做太多事情。 -
问题在于(正如@dario 所说)直观地检查 200 万行 以查看是否发生了一些有趣的事情是不切实际的。如果你可以直观地检查 100 行/秒,那么查看整个数据集需要 5 个多小时;如果 1000 行/秒,它仍然是大约 30 分钟(你可能会错过一些东西)。您可以检查随机子样本...