【发布时间】:2011-11-21 15:59:02
【问题描述】:
我正在从一项服务收集完整的 HTML,该服务提供对大量博客和新闻网站的访问。我正在(实时)检查 HTML 以查看它是否包含一些关键字。如果它包含其中一个关键字,我会将 HTML 写入文本文件以存储它。
我想这样做一个星期。因此,我正在收集大量数据。对该程序进行 3 分钟的测试,生成了一个 100MB 的文本文件。我有 4 TB 的空间,我不能使用更多的空间。
另外,我不希望文本文件变得太大,因为我认为它们会变得无法打开。
我的建议是打开一个文本文件,然后将 HTML 写入其中,并经常检查其大小。如果它变得大于,比如说 200MB,我关闭文本文件并打开另一个。我还需要记录我总共使用了多少空间,这样我就可以确保我不会接近 4 TB。
此时我的问题是如何在文件关闭之前检查文本文件的大小(使用 FileWriter.close())。是否有此功能,或者我应该计算写入文件的字符数并使用它来估计文件大小?
另一个问题:有没有办法最小化我的文本文件占用的空间?我正在使用 Java。
【问题讨论】:
-
一个单独的问题应该是一个单独的问题。
标签: java file filewriter file-writing