【问题标题】:How to read over 1M records from CSV?如何从 CSV 读取超过 100 万条记录?
【发布时间】:2021-11-27 00:00:41
【问题描述】:

我的 CSV 文件有大约 2M(百万)条记录。如果我用excel打开它,我只能查看大约1M(我相信excel会限制它)。当我尝试在 RStudio 中查看 csv 时,它并没有让我看到所有 2M 记录。它只向我显示了与 excel 相同数量的记录。 如何查看 RStudio 中所有 2M 的记录?

如果您好奇,我正在使用下面的代码来读取文件。我可以在 excel 中查看与在 R 中完全相同数量的记录。但我知道还有更多记录。

df <- read.csv("bigfile.csv", header = TRUE) 

【问题讨论】:

  • 多少列? 200 万条记录现在已经不多了……
  • @RuiBarradas 有 16 列
  • 我会尝试给出一个答案:您在 R 中查看不小的数据集(并且 2M 行与 bigdata 相差甚远)的方式是使用代码 -您使用代码来检查缺失或不一致的值,使用代码来查找模式并使用代码来操作它。虽然 2M 不是大数据,但无论如何都要进行目视检查……至少这是我的看法
  • 我删除了 rstudio 和 excel 标签,因为它们实际上并不相关。您可以在 RStudio 之外使用 View() 以及使用它。否则,您希望通过查看那么多行来实现什么?如果不进行某种形式的聚合,您当然无法理解它,因此除了确保数据格式正确之外,您不需要做太多事情。
  • 问题在于(正如@dario 所说)直观地检查 200 万行 以查看是否发生了一些有趣的事情是不切实际的。如果你可以直观地检查 100 行/秒,那么查看整个数据集需要 5 个多小时;如果 1000 行/秒,它仍然是大约 30 分钟(你可能会错过一些东西)。您可以检查随机子样本...

标签: r csv


【解决方案1】:

我使用名为大文本文件查看器 (LTFViewer) 的免费应用程序来快速查看大文件。它有一个搜索工具和一个 goto_line 工具,对于调查问题非常方便。

完成对 R 的导入后,您可以:

str(df)
head(df)
names(df)

你也可以试试

View(df)

但正如您所注意到的,随着文件大小的增加,这种方法的效果会越来越差。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-09-17
    • 2020-03-18
    • 1970-01-01
    • 2020-07-03
    • 2017-12-23
    • 1970-01-01
    相关资源
    最近更新 更多