【问题标题】:mahout datamodel for amazon redshift Recommendation Engine亚马逊红移推荐引擎的 mahout 数据模型
【发布时间】:2014-11-13 06:25:52
【问题描述】:

我将如何使用亚马逊 Redshift 作为数据源构建推荐引擎。是否有任何适用于亚马逊 Redshift 或 S3 的 mahout 数据模型

【问题讨论】:

    标签: amazon-redshift mahout-recommender


    【解决方案1】:

    Mahout 使用 Hadoop 读取数据,除了少数支持的 NoSQL dbs 和 JDBC dbs。 Hadoop 反过来可以使用 S3。您必须将 Hadoop 配置为使用 S3 文件系统,然后 Mahout 应该可以正常读写 S3。

    Redshift 是一个基于 Postgres 并支持 JDBC/ODBC 的数据仓库解决方案。 Mahout 0.9 支持存储在 JDBC 兼容存储中的数据模型,所以虽然我没有这样做,但应该支持它

    Mahout v1 推荐器在 Spark 上运行,输入和输出默认为文本。所有 I/O 都通过 Hadoop。所以 S3 数据很适合输入,但创建的模型也是文本,需要使用 Solr 或 Elasticsearch 等搜索引擎进行索引和查询。你可以很容易地编写一个阅读器来从任何其他存储 (Redshift) 获取数据,但你可能不想将模型保存在数据仓库中,因为它们需要被 solr 索引并且应该具有超快速的搜索引擎样式检索。

    【讨论】:

    • 感谢 pferrel。我的数据在 sql server 中,我们在 redshift 上构建数据仓库。我们没有使用 Hadoop,EMR 集群。我们想使用 mahout 实时(或接近实时)推荐。请给我一些想法,我的技术集是 (Redshift ,sql server,S3,Mahout,R)。
    • NRT 建议,使用 Mahout v1(使用 Spark)+ Solr 或 Elasticsearch。在运行时,查询是当前用户对 Solr 的偏好历史,这非常快,这会返回要推荐的项目的有序列表。您在 Solr 中索引的模型由 Mahout v1“spark-itemsimilarity”创建 参考:mahout.apache.org/users/recommender/… 演示文稿和博客文章:occamsmachete.com/ml 关于该主题的简书:mapr.com/practical-machine-learning
    猜你喜欢
    • 2023-03-22
    • 2021-05-05
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-04-03
    • 2014-04-18
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多