【问题标题】:Understanding Spark CosineSimillarity output了解 Spark CosineSimilarity 输出
【发布时间】:2017-06-17 08:33:17
【问题描述】:

我正在使用 spark 1.6 余弦相似度 (DIMSUM) 算法。

参考:https://github.com/eBay/Spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/CosineSimilarity.scala

这就是我正在做的事情。

输入: 50k 文档的文本,数据框中带有 id。

处理:

  • 标记文本
  • 使用 word2Vec 生成向量
  • 生成的行矩阵
  • 使用带阈值的 columnSimilarities 方法 (DIMSUM)

输出:

  • 得到一个坐标矩阵
  • 在打印出此坐标矩阵的条目时,我得到输出 格式示例:MatrixEntry(133,185,0.04106425850610451)

我不明白数字 133 和 185 是什么。我猜这些是文档 ID/序列号,但我不确定。有人可以帮忙吗?

抱歉,如果这个问题很琐碎。

【问题讨论】:

  • 您是否能够使用 CoordinateMatrix 找到文档中的相似性?

标签: algorithm scala apache-spark cosine-similarity


【解决方案1】:

MatrixEntry(i, j, value)表示第i列和第j列的相似度所以

MatrixEntry(133,185,0.04106425850610451)

是第 133 列和第 185 列之间的相似性。这些值对应于术语而不是文档。

【讨论】:

  • 您能否详细说明第 133 列和第 185 列包含什么?如果余弦值接近 1,是否意味着这两个文档相似
  • 为什么 i 和 j 是列?你怎么知道哪些文件是相似的?
猜你喜欢
  • 2016-10-17
  • 2016-10-18
  • 1970-01-01
  • 1970-01-01
  • 2021-05-26
  • 2017-04-18
  • 2016-12-24
  • 2017-03-09
  • 2011-10-20
相关资源
最近更新 更多