【问题标题】:The output of Mahout spark-itemsimilarity and its indicatorsMahout spark-itemsimilarity 的输出及其指标
【发布时间】:2015-12-07 07:28:43
【问题描述】:

Mahout (0.11.1) spark-itemsimilarity 的输出如下所示:
3705021559 3705021558:241.35418715327978 3705021546:163.6168323904276
据我了解,其格式为:
(item)tab(item1:score)tab(item2:score), item1, item2, itemx... 是所谓的指标。

我的问题是如何使用指标?

在一些示例中,例如
https://www.mapr.com/products/mapr-sandbox-hadoop/tutorials/recommender-tutorialhttps://www.mapr.com/blog/mahout-spark-whats-new-recommenders%E2%80%94part-2,
我们对指标进行索引,通过查询指标字段得到推荐,然后得到推荐。对我来说,它看起来像:我们将人们购买的物品列表作为指标列表,并使用指标列表查询 Elasticsearch/Solr,并获得推荐(相似)项目。在这种方法中,我们查询指标字段以获取相似的项目。

为什么不简单:如果我们知道人们购买了什么作为列表,我们查询 ID 字段以获取指标作为结果。换句话说,我们从spark-itemsimilarity 得到的输出已经告诉我们哪些项目(指标)与一个项目相似?

可能是我误解了指标的意思,有没有大神帮我解答一下?

【问题讨论】:

    标签: mahout mahout-recommender


    【解决方案1】:

    3705021559 3705021558:241.35418715327978 3705021546:163.6168323904276正是(item)tab(item1:score)tab(item2:score)的格式

    第一个项目是与所有其他项目进行比较的项目。所以这就是说与3705021559相比,3705021558的对数似然比为241.35418715327978等等。

    输出与您的输入相匹配,因此如果 3705021558 不是项目 ID,您可能已在输入中指定了该项目的位置。运行不带参数的 spark-itemsimilarity 以获得帮助输出。您可以在输入 TSV 中指定 item-id 的位置、user-id 的位置以及指标名称的位置。

    顺便说一句,如果您打算在推荐器中使用它,请尝试使用 Universal Recommender,它集成了事件捕获和推荐服务器。 http://templates.prediction.io/PredictionIO/template-scala-parallel-universal-recommendation

    【讨论】:

    • 另一个问题,假设看跌期权是客户购买历史,格式为customer_id1, sku_id1;customer_id2, sku_id2;customer_id3, sku_id3;customer_id2, sku_id2;(请认为';'作为新行)。我应该删除重复的行,如customer_id2, sku_id2,还是直接留下?
    猜你喜欢
    • 2017-08-06
    • 1970-01-01
    • 2016-02-06
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多