【发布时间】:2016-07-23 13:10:54
【问题描述】:
我有 1.3 GB 的 tsv 数据文件,我需要用它来使用 R 或 python 进行一些分析。我的机器有 8 GB RAM,它运行的是 Windows 8。我无法使用 RStudio 或任何文件读取应用程序加载文件。你有什么建议以便我能够读取文件并处理它?我应该用 hadoop 搬到亚马逊吗?在我看来,这是一个大数据问题。
【问题讨论】:
-
如果你不将整个文件读入内存,例如逐行读取,并做一些工作,那么你应该没问题。还有一些方法可以在本地进行 mapreduce,因此对于您拥有的数据大小来说,完全不需要 Hadoop 集群
-
是的。但是当我编写 R 程序时,它会处理整个文件。因此,即使我只是查看前 k 个记录,也无济于事。您能否提供更多有关在本地运行 mapreduce 作业的信息?
-
无论如何,回到 Hadoop 的观点是不必要的......我相当肯定 Python 中的 Pandas 可以读取和处理一些大小非常合理的数据。
-
它告诉你如何加载文件。我不会复制一个告诉你如何使用 Pandas 的答案,因为你正在寻找的答案已经存在。
标签: amazon-web-services hadoop machine-learning rstudio bigdata