【问题标题】:Calculating cosine similarity in mahout在 mahout 中计算余弦相似度
【发布时间】:2012-01-05 18:43:52
【问题描述】:

为了找到两个文档之间的相似性,我打算采用 mahout 来执行这个任务。

该过程将包括:

  1. 将文档转换为 tf-idf
  2. 删除停用词(使搜索有效)
  3. 运行余弦相似度
  4. 给出相似度

我计划在 mahout 中实现这一点。我是 mahout 的初学者,有人可以帮我提供一些教程来执行此操作并告诉我这是否是计算文档之间相似度的有效方法

【问题讨论】:

  • 在 Windows 上使用 mahout 是否明智,或者我应该转向 linux .. 请帮助
  • 你已经尝试了什么?你面临什么问题?如果您需要一般介绍,您应该阅读 Mahout in Action。

标签: text-processing similarity mahout


【解决方案1】:

您不需要实现任何东西。使用 seqdirectory 和 seq2sparse 向量化您的数据。之后,您可以使用 RowSimilarityJob 计算成对余弦相似度。

【讨论】:

    猜你喜欢
    • 2015-05-24
    • 2021-05-19
    • 2011-05-21
    • 1970-01-01
    • 2017-07-07
    • 2018-04-11
    • 2017-02-03
    • 2013-06-24
    相关资源
    最近更新 更多