【发布时间】:2017-06-01 00:03:00
【问题描述】:
我有一个巨大的 csv 文件 (500MB) 和 40 万条记录
id, name, comment, text
1, Alex, Hello, I believe in you
栏目文字包含很多信息和句子。我想获取此列(“文本”),将所有非字母符号替换为“”,并以从“文本”列中最常见的单词到最不常见的单词的倒序排序,限制为 1000。这就是它的样子.我正在使用 CsvReader 库
CsvReader doc = new CsvReader("My CSV Name");
doc.readHeaders();
try {
List<String> listWords = new ArrayList<>();
while (doc.readRecord()) {
listWords.addAll(Arrays.asList(doc.get("Text"/*my column name*/).replaceAll("\\P{Alpha}", " ").toLowerCase().trim().split("[ ]+")));
}
Map<String, Long> sortedText = listWords.stream()
.collect(groupingBy(chr -> chr, counting()))
.entrySet().stream()
.sorted(Map.Entry.comparingByValue(Collections.reverseOrder()))
.limit(1000)
.collect(Collectors.toMap(
Map.Entry::getKey,
Map.Entry::getValue,
(e1, e2) -> e1,
LinkedHashMap::new
));
sortedText.forEach((k, v) -> System.out.println("Word: " + k + " || " + "Count: " + v));
doc.close();
} catch (IOException e) {
e.printStackTrace();
} finally {
doc.close();
}
运行后,我的 GC 超出了内存不足错误。如何做到最好?我无法增加堆大小,我只需要使用默认设置
【问题讨论】:
-
什么时候内存不足?是在将单词添加到
listWords时发生还是在排序时发生? -
当我将单词添加到 listWords 时会发生这种情况
标签: java csv out-of-memory