【发布时间】:2011-08-03 01:18:33
【问题描述】:
如果这有一个简单的答案,我提前道歉。这似乎是那种东西,但我似乎无法通过搜索 SO 或谷歌搜索在帮助文件中找到它。
我现在正在处理一些数 GB 的数据集。它足以容纳我有权访问的一个集群节点上的内存,但需要相当长的时间来加载。对于使用这些数据进行的许多调试/编程活动,我不需要加载整个文件,只需前几千个观察结果就有一个数据集来测试代码。我当然可以只读取整个文件和子集,但我想知道是否有办法告诉read.dta() 只读取前 N 行?这当然会快得多。
我也可以使用 .csv 之类的正确格式,然后使用 read.csv() 的 nrows 参数,但是我会丢失 Stata 数据集中的因子标签(并且必须从某人那里重新创建相当多 GB 的数据else 的代码输入到这个项目中。因此,首选 .dta 文件的直接解决方案。
【问题讨论】:
-
将您的 stata-using-colleague 指向
outsheet导出到 CSV 函数的方向可能是值得的。这个项目可能有点晚了,但下次你们一起工作时可能会更容易。 ats.ucla.edu/stat/stata/faq/outsheet.htm
标签: r stata processing-efficiency