【发布时间】:2016-03-23 15:21:35
【问题描述】:
我正在处理 60GB 或更大的文本文件。这些文件被分成可变长度的标题部分和数据部分。我有三个功能:
-
head?区分标题行和数据行的谓词 -
process-header处理一个标题行字符串 -
process-data处理一个数据行字符串 - 处理函数异步访问和修改内存数据库
我从另一个 SO 线程推进了一种文件读取方法,它应该构建一个惰性的行序列。想法是用一个函数处理一些行,然后切换一次函数并继续使用下一个函数处理。
(defn lazy-file
[file-name]
(letfn [(helper [rdr]
(lazy-seq
(if-let [line (.readLine rdr)]
(cons line (helper rdr))
(do (.close rdr) nil))))]
(try
(helper (clojure.java.io/reader file-name))
(catch Exception e
(println "Exception while trying to open file" file-name)))))
我将它与类似的东西一起使用
(let [lfile (lazy-file "my-file.txt")]
(doseq [line lfile :while head?]
(process-header line))
(doseq [line (drop-while head? lfile)]
(process-data line)))
虽然这可行,但由于以下几个原因,它的效率相当低:
- 我必须过滤标题行并处理它们,然后重新开始解析整个文件并删除所有标题行来处理数据,而不是简单地调用
process-head直到我到达数据然后继续process-data。这与lazy-file的意图完全相反。 - 观察内存消耗告诉我,该程序虽然看起来很懒惰,但会累积使用尽可能多的 RAM 来将文件保存在内存中。
那么使用我的数据库更有效、更惯用的方法是什么?
一个想法可能是使用多方法来处理取决于 head? 谓词的值的标头和数据,但我认为这会对速度产生一些严重影响,特别是因为只有一次发生谓词结果从总是真到总是假。我还没有对它进行基准测试。
使用另一种方式来构建 line-seq 并使用iterate 解析它会更好吗?我猜这仍然让我需要使用 :while 和 :drop-while。
在我的研究中,多次提到使用 NIO 文件访问,这应该可以提高内存使用率。我还不知道如何在 clojure 中以惯用的方式使用它。
也许我对大体的想法还没有把握,应该如何处理文件?
与往常一样,非常感谢任何帮助、想法或对 tuts 的指导。
【问题讨论】:
标签: clojure memory-efficient file-processing