【问题标题】:Is there a memory implementation of the SparseVectorsFromSequenceFiles, RowIdJob and RowSimilarityJob jobs是否有 SparseVectorsFromSequenceFiles、RowIdJob 和 RowSimilarityJob 作业的内存实现
【发布时间】:2012-07-02 15:09:21
【问题描述】:
我一直在使用 Mahout 提供的运行 Map/Reduce 作业的 SparseVectorsFromSequenceFiles、RowIdJob 和 RowSimilarityJob Hadoop 作业执行潜在语义分析。我一直在尝试为这些在内存中运行的功能找到一个等效的实现,或者在单个线程中,或者最好在多个线程中。
有这种事吗?
【问题讨论】:
标签:
hadoop
mahout
semantic-analysis
lsa
latent-semantic-analysis
【解决方案1】:
我不知道,不这么认为,但写起来很简单。您只需打开一个SequenceFile.Reader 并为每条记录从值Writable 中获取Vector 并做您想做的事情。这可能是10 行代码,不值得一个工具。