了解 Spark CosineSimilarity 输出

【问题标题】：Understanding Spark CosineSimillarity output了解 Spark CosineSimilarity 输出
【发布时间】：2017-06-17 08:33:17
【问题描述】：

我正在使用 spark 1.6 余弦相似度 (DIMSUM) 算法。

参考：https://github.com/eBay/Spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/CosineSimilarity.scala

这就是我正在做的事情。

输入： 50k 文档的文本，数据框中带有 id。

处理：

标记文本
使用 word2Vec 生成向量
生成的行矩阵
使用带阈值的 columnSimilarities 方法 (DIMSUM)

输出：

得到一个坐标矩阵
在打印出此坐标矩阵的条目时，我得到输出格式示例：MatrixEntry(133,185,0.04106425850610451)

我不明白数字 133 和 185 是什么。我猜这些是文档 ID/序列号，但我不确定。有人可以帮忙吗？

抱歉，如果这个问题很琐碎。

【问题讨论】：

您是否能够使用 CoordinateMatrix 找到文档中的相似性？

标签： algorithm scala apache-spark cosine-similarity

【解决方案1】：

MatrixEntry(i, j, value)表示第i列和第j列的相似度所以

MatrixEntry(133,185,0.04106425850610451)

是第 133 列和第 185 列之间的相似性。这些值对应于术语而不是文档。

【讨论】：

您能否详细说明第 133 列和第 185 列包含什么？如果余弦值接近 1，是否意味着这两个文档相似
为什么 i 和 j 是列？你怎么知道哪些文件是相似的？

猜你喜欢

2016-10-17
2016-10-18
1970-01-01
1970-01-01
2021-05-26
2017-04-18
2016-12-24
2017-03-09
2011-10-20

相关资源

下载 2021-06-23
下载 2021-06-27
下载 2023-03-03
下载 2021-06-27
下载 2023-02-03

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode