Mahout spark-itemsimilarity 的输出及其指标答案

【问题标题】：The output of Mahout spark-itemsimilarity and its indicatorsMahout spark-itemsimilarity 的输出及其指标
【发布时间】：2015-12-07 07:28:43
【问题描述】：

Mahout (0.11.1) spark-itemsimilarity 的输出如下所示：
3705021559 3705021558:241.35418715327978 3705021546:163.6168323904276
据我了解，其格式为：
(item)tab(item1:score)tab(item2:score), item1, item2, itemx... 是所谓的指标。

我的问题是如何使用指标？

在一些示例中，例如
https://www.mapr.com/products/mapr-sandbox-hadoop/tutorials/recommender-tutorial 和 https://www.mapr.com/blog/mahout-spark-whats-new-recommenders%E2%80%94part-2,
我们对指标进行索引，通过查询指标字段得到推荐，然后得到推荐。对我来说，它看起来像：我们将人们购买的物品列表作为指标列表，并使用指标列表查询 Elasticsearch/Solr，并获得推荐（相似）项目。在这种方法中，我们查询指标字段以获取相似的项目。

为什么不简单：如果我们知道人们购买了什么作为列表，我们查询 ID 字段以获取指标作为结果。换句话说，我们从spark-itemsimilarity 得到的输出已经告诉我们哪些项目（指标）与一个项目相似？

可能是我误解了指标的意思，有没有大神帮我解答一下？

【问题讨论】：

标签： mahout mahout-recommender

【解决方案1】：

3705021559 3705021558:241.35418715327978 3705021546:163.6168323904276正是(item)tab(item1:score)tab(item2:score)的格式

第一个项目是与所有其他项目进行比较的项目。所以这就是说与3705021559相比，3705021558的对数似然比为241.35418715327978等等。

输出与您的输入相匹配，因此如果 3705021558 不是项目 ID，您可能已在输入中指定了该项目的位置。运行不带参数的 spark-itemsimilarity 以获得帮助输出。您可以在输入 TSV 中指定 item-id 的位置、user-id 的位置以及指标名称的位置。

顺便说一句，如果您打算在推荐器中使用它，请尝试使用 Universal Recommender，它集成了事件捕获和推荐服务器。 http://templates.prediction.io/PredictionIO/template-scala-parallel-universal-recommendation

【讨论】：

另一个问题，假设看跌期权是客户购买历史，格式为customer_id1, sku_id1;customer_id2, sku_id2;customer_id3, sku_id3;customer_id2, sku_id2;（请认为';'作为新行）。我应该删除重复的行，如customer_id2, sku_id2，还是直接留下？