【发布时间】:2012-01-05 18:43:52
【问题描述】:
为了找到两个文档之间的相似性,我打算采用 mahout 来执行这个任务。
该过程将包括:
- 将文档转换为 tf-idf
- 删除停用词(使搜索有效)
- 运行余弦相似度
- 给出相似度
我计划在 mahout 中实现这一点。我是 mahout 的初学者,有人可以帮我提供一些教程来执行此操作并告诉我这是否是计算文档之间相似度的有效方法
【问题讨论】:
-
在 Windows 上使用 mahout 是否明智,或者我应该转向 linux .. 请帮助
-
你已经尝试了什么?你面临什么问题?如果您需要一般介绍,您应该阅读 Mahout in Action。
标签: text-processing similarity mahout