【发布时间】:2013-06-10 00:57:27
【问题描述】:
我需要为一组文档计算 tf-idf,并且正在寻找一个执行此操作的 java 库。
注意:我知道 Mahout,但我真正想要的是一个界面简单且不需要基础设施设置的库。
【问题讨论】:
-
Mahout 中的类只是对 Lucene 的简单调用。它们不需要基础架构,尤其是如果您阅读它们(它们是开源的)。
我需要为一组文档计算 tf-idf,并且正在寻找一个执行此操作的 java 库。
注意:我知道 Mahout,但我真正想要的是一个界面简单且不需要基础设施设置的库。
【问题讨论】:
Mahout 易于使用和安装。您只需要JDK环境和maven。 how to install mahout
您还可以将 hadoop 与 mahout 一起使用,这不是必须的(您可以在本地运行 mahout 而无需 hadoop)。但是你会发现这个 blog 对安装 hadoop 很有帮助。
【讨论】: