【发布时间】:2015-08-27 10:56:08
【问题描述】:
我正在开发一个应用程序,它每天必须读取和处理 ~29K 文件 (~500GB)。这些文件将采用压缩格式并在 ftp 上可用。
我做了什么:我打算从 ftp 下载文件,解压缩并使用多线程处理,这大大减少了处理时间(当活动线程数固定为一个较小的数字)。我已经编写了一些代码并针对 ~3.5K 文件(~32GB)进行了测试。详情在这里:https://stackoverflow.com/a/32247100/3737258
但是,大约 29K 文件的估计处理时间似乎仍然非常长。
我在寻找什么:任何可以帮助我将约 29K 文件(约 500GB)的处理时间缩短到 3-4 小时的建议/解决方案。
请注意,每个文件都必须逐行读取,并且必须将每行写入一个新文件并进行一些修改(删除一些信息并添加一些新信息)。
【问题讨论】:
标签: java file file-io ftp parallel-processing