【发布时间】:2016-10-12 09:06:19
【问题描述】:
我正在使用 pySpark MLlib 和现成的 ALS 方法进行协同过滤。只是想知道,Spark 是否提供其他一些过滤方法(用于计算距离),例如 Pearson 或 Cosine?他们可以在 Spark 环境中完成吗?
非常感谢!
【问题讨论】:
标签: python apache-spark pyspark apache-spark-mllib
我正在使用 pySpark MLlib 和现成的 ALS 方法进行协同过滤。只是想知道,Spark 是否提供其他一些过滤方法(用于计算距离),例如 Pearson 或 Cosine?他们可以在 Spark 环境中完成吗?
非常感谢!
【问题讨论】:
标签: python apache-spark pyspark apache-spark-mllib
是的,Spark 有一个余弦相似度的实现。
https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/CosineSimilarity.scala
scala 中的示例
// Load and parse the data file.
val rows = sc.textFile(params.inputFile).map { line =>
val values = line.split(' ').map(_.toDouble)
Vectors.dense(values)
}.cache()
val mat = new RowMatrix(rows)
val exact = mat.columnSimilarities()
【讨论】: