【发布时间】:2011-06-02 00:25:45
【问题描述】:
我有一个大型数据集(大约 90GB)可以使用。每天每个小时都有数据文件(制表符分隔),我需要在整个数据集中执行操作。例如,获取其中一列中给出的操作系统的份额。我尝试将所有文件合并到一个大文件中并执行简单的计数操作,但它对于服务器内存来说太大了。
所以,我想我需要一次执行每个文件的操作,然后最后加起来。我是 perl 的新手,对性能问题特别天真。这种情况下怎么做这样的操作。
例如,文件的两列是。
ID OS
1 Windows
2 Linux
3 Windows
4 Windows
让我们做一些简单的事情,计算数据集中操作系统的份额。因此,每个 .txt 文件都有数百万行这样的文件,并且有很多这样的文件。对整个文件进行操作的最有效方法是什么。
【问题讨论】:
标签: perl performance parsing file memory-management