亚马逊红移推荐引擎的 mahout 数据模型答案

【问题标题】：mahout datamodel for amazon redshift Recommendation Engine亚马逊红移推荐引擎的 mahout 数据模型
【发布时间】：2014-11-13 06:25:52
【问题描述】：

我将如何使用亚马逊 Redshift 作为数据源构建推荐引擎。是否有任何适用于亚马逊 Redshift 或 S3 的 mahout 数据模型

【问题讨论】：

标签： amazon-redshift mahout-recommender

【解决方案1】：

Mahout 使用 Hadoop 读取数据，除了少数支持的 NoSQL dbs 和 JDBC dbs。 Hadoop 反过来可以使用 S3。您必须将 Hadoop 配置为使用 S3 文件系统，然后 Mahout 应该可以正常读写 S3。

Redshift 是一个基于 Postgres 并支持 JDBC/ODBC 的数据仓库解决方案。 Mahout 0.9 支持存储在 JDBC 兼容存储中的数据模型，所以虽然我没有这样做，但应该支持它

Mahout v1 推荐器在 Spark 上运行，输入和输出默认为文本。所有 I/O 都通过 Hadoop。所以 S3 数据很适合输入，但创建的模型也是文本，需要使用 Solr 或 Elasticsearch 等搜索引擎进行索引和查询。你可以很容易地编写一个阅读器来从任何其他存储 (Redshift) 获取数据，但你可能不想将模型保存在数据仓库中，因为它们需要被 solr 索引并且应该具有超快速的搜索引擎样式检索。

【讨论】：

感谢 pferrel。我的数据在 sql server 中，我们在 redshift 上构建数据仓库。我们没有使用 Hadoop，EMR 集群。我们想使用 mahout 实时（或接近实时）推荐。请给我一些想法，我的技术集是 (Redshift ,sql server,S3,Mahout,R)。
NRT 建议，使用 Mahout v1（使用 Spark）+ Solr 或 Elasticsearch。在运行时，查询是当前用户对 Solr 的偏好历史，这非常快，这会返回要推荐的项目的有序列表。您在 Solr 中索引的模型由 Mahout v1“spark-itemsimilarity”创建参考：mahout.apache.org/users/recommender/… 演示文稿和博客文章：occamsmachete.com/ml 关于该主题的简书：mapr.com/practical-machine-learning