【发布时间】:2015-03-12 16:38:03
【问题描述】:
我正在用 Java 编写一个小型系统,在该系统中我从文本文件中提取 n-gram 特征,然后需要执行特征选择过程以选择最具鉴别力的特征。
单个文件的特征提取过程返回一个地图,其中包含每个独特特征及其在文件中的出现。我将所有文件的地图 (Map) 合并到一个地图中,其中包含从所有文件中提取的所有独特特征的文档频率 (DF)。统一的 Map 可以包含超过 10,000,000 个条目。
目前,特征提取过程运行良好,我想执行特征选择,其中我需要实现信息增益或增益比。我必须先对地图进行排序,执行计算并保存结果,以便最终获得一个列表(对于每个特征,它的特征选择分数)
我的问题是: 保存如此大量数据(~10M)并执行计算的最佳实践和最佳数据结构是什么?
【问题讨论】:
-
看看HashMap。
标签: java data-structures feature-extraction feature-selection computation