【发布时间】:2014-11-13 06:25:52
【问题描述】:
我将如何使用亚马逊 Redshift 作为数据源构建推荐引擎。是否有任何适用于亚马逊 Redshift 或 S3 的 mahout 数据模型
【问题讨论】:
标签: amazon-redshift mahout-recommender
我将如何使用亚马逊 Redshift 作为数据源构建推荐引擎。是否有任何适用于亚马逊 Redshift 或 S3 的 mahout 数据模型
【问题讨论】:
标签: amazon-redshift mahout-recommender
Mahout 使用 Hadoop 读取数据,除了少数支持的 NoSQL dbs 和 JDBC dbs。 Hadoop 反过来可以使用 S3。您必须将 Hadoop 配置为使用 S3 文件系统,然后 Mahout 应该可以正常读写 S3。
Redshift 是一个基于 Postgres 并支持 JDBC/ODBC 的数据仓库解决方案。 Mahout 0.9 支持存储在 JDBC 兼容存储中的数据模型,所以虽然我没有这样做,但应该支持它
Mahout v1 推荐器在 Spark 上运行,输入和输出默认为文本。所有 I/O 都通过 Hadoop。所以 S3 数据很适合输入,但创建的模型也是文本,需要使用 Solr 或 Elasticsearch 等搜索引擎进行索引和查询。你可以很容易地编写一个阅读器来从任何其他存储 (Redshift) 获取数据,但你可能不想将模型保存在数据仓库中,因为它们需要被 solr 索引并且应该具有超快速的搜索引擎样式检索。
【讨论】: