【发布时间】:2017-06-17 08:33:17
【问题描述】:
我正在使用 spark 1.6 余弦相似度 (DIMSUM) 算法。
这就是我正在做的事情。
输入: 50k 文档的文本,数据框中带有 id。
处理:
- 标记文本
- 使用 word2Vec 生成向量
- 生成的行矩阵
- 使用带阈值的 columnSimilarities 方法 (DIMSUM)
输出:
- 得到一个坐标矩阵
- 在打印出此坐标矩阵的条目时,我得到输出 格式示例:MatrixEntry(133,185,0.04106425850610451)
我不明白数字 133 和 185 是什么。我猜这些是文档 ID/序列号,但我不确定。有人可以帮忙吗?
抱歉,如果这个问题很琐碎。
【问题讨论】:
-
您是否能够使用 CoordinateMatrix 找到文档中的相似性?
标签: algorithm scala apache-spark cosine-similarity