无法在 RStudio 中处理大文件 [关闭]答案

【问题标题】：Not able to work on large files in RStudio [closed]无法在 RStudio 中处理大文件 [关闭]
【发布时间】：2016-07-23 13:10:54
【问题描述】：

我有 1.3 GB 的 tsv 数据文件，我需要用它来使用 R 或 python 进行一些分析。我的机器有 8 GB RAM，它运行的是 Windows 8。我无法使用 RStudio 或任何文件读取应用程序加载文件。你有什么建议以便我能够读取文件并处理它？我应该用 hadoop 搬到亚马逊吗？在我看来，这是一个大数据问题。

【问题讨论】：

如果你不将整个文件读入内存，例如逐行读取，并做一些工作，那么你应该没问题。还有一些方法可以在本地进行 mapreduce，因此对于您拥有的数据大小来说，完全不需要 Hadoop 集群
是的。但是当我编写 R 程序时，它会处理整个文件。因此，即使我只是查看前 k 个记录，也无济于事。您能否提供更多有关在本地运行 mapreduce 作业的信息？
无论如何，回到 Hadoop 的观点是不必要的......我相当肯定 Python 中的 Pandas 可以读取和处理一些大小非常合理的数据。
How to I load a tsv file into a Pandas DataFrame?的可能重复
它告诉你如何加载文件。我不会复制一个告诉你如何使用 Pandas 的答案，因为你正在寻找的答案已经存在。

标签： amazon-web-services hadoop machine-learning rstudio bigdata

【解决方案1】：

我在 R 中加载时遇到了问题。我可以使用 python pandas 加载它，并且似乎正在使用 8GB RAM 的计算机。

【讨论】：

你写这个的方式表明它是一个解决方案，但你的问题说你已经有 8GB。如果这是您问题的附录，请删除此答案并将其编辑到您的问题中
我将其解读为“无法让它与 R 一起使用，但即使在我的 8gb 机器上，我也确实让它与 Python Pandas 一起使用”。
@Gimby 够公平