具有 nutch 数据的本地模式下的 Apache Mahout 与 Apache Spark答案

【问题标题】：Apache Mahout Vs Apache Spark in local mode with nutch data具有 nutch 数据的本地模式下的 Apache Mahout 与 Apache Spark
【发布时间】：2020-07-20 16:20:15
【问题描述】：

我已经在单模式下安装了 nutch/solr 应用程序。我是尝试整合 Mahout 或 spark 以实现个性化结果的配偶。但我离那个点还很远。

在缺乏知识、时间和资源的情况下，是否有一种快速有效的方法来使用具有 Nutch 的 crawled.db 或 solr 索引数据的工具来将个性化表示为概念证明？

我愿意接受任何想法。

问候

【问题讨论】：

标签： apache-spark solr nutch mahout mahout-recommender

【解决方案1】：

考虑到您说的是 Spark 与 Mahout - 我认为您正在考虑“旧”基于 MR 的 Mahout，它已被弃用并移至“社区支持”。

我建议您使用 Mahout Samsara，它是一个 Spark 库。例如。我的回答是你应该使用 Mahout 和 Spark。但是对于本地模式，您可以只使用 Mahout Vectors / Matrices。

这个问题很模糊，但根据标签，我认为本教程可能是一个不错的起点，因为它使用 Mahout 和 Solr 作为推荐引擎。

http://mahout.apache.org/docs/latest/tutorials/cco-lastfm/

免责声明：我是 Apache Mahout 项目的 PMC。

【讨论】：

我没有合适的经验，这对我来说是一个新领域。我的目标是基于索引数据实现个性化。具有协同过滤或内容过滤算法的东西。该工具应集成到整个系统中。但我不确定我的基础设施是否足够。所以此刻我需要可视化我的结果会是什么样子。
好的-也许看看 Apache PredictionIO predictionio.apache.org
是否可以不集成本地部署？