【发布时间】:2015-12-07 07:28:43
【问题描述】:
Mahout (0.11.1) spark-itemsimilarity 的输出如下所示:3705021559 3705021558:241.35418715327978 3705021546:163.6168323904276
据我了解,其格式为:(item)tab(item1:score)tab(item2:score), item1, item2, itemx...
是所谓的指标。
我的问题是如何使用指标?
在一些示例中,例如
https://www.mapr.com/products/mapr-sandbox-hadoop/tutorials/recommender-tutorial 和 https://www.mapr.com/blog/mahout-spark-whats-new-recommenders%E2%80%94part-2,
我们对指标进行索引,通过查询指标字段得到推荐,然后得到推荐。对我来说,它看起来像:我们将人们购买的物品列表作为指标列表,并使用指标列表查询 Elasticsearch/Solr,并获得推荐(相似)项目。在这种方法中,我们查询指标字段以获取相似的项目。
为什么不简单:如果我们知道人们购买了什么作为列表,我们查询 ID 字段以获取指标作为结果。换句话说,我们从spark-itemsimilarity 得到的输出已经告诉我们哪些项目(指标)与一个项目相似?
可能是我误解了指标的意思,有没有大神帮我解答一下?
【问题讨论】: