【问题标题】:How do I build real-time recommender system with Apache Spark?如何使用 Apache Spark 构建实时推荐系统?
【发布时间】:2016-06-28 23:53:30
【问题描述】:

到目前为止,我只能找到一些推荐引擎,它们基于 csv 文件作为数据集在内存中构建和部署所有内容,因此如果每天有大约 1 M 的数据和大约 3700 个用户。 我的情况是,我的公司有大约 100 万个活跃项目,每天大约 4000 个活跃用户(平均)和每周大约 450 万页面访问量(平均)。

在内存接缝中构建、训练和推荐项目的想法太糟糕了,所以我正在考虑构建一个推荐引擎,但有点实时!如何 ?这就是我正在寻找的东西,也许可以训练数据并将其部署到像 elasticsearch 这样的索引器或类似于推荐项的东西。

任何分段?

【问题讨论】:

  • Spark 仍然可以处理无法放入内存的数据,你见过这个article吗?

标签: apache-spark real-time recommendation-engine


【解决方案1】:

我会考虑做的事情很少。

  • 使用机器学习从项目中提取特征,这可能会再次重新训练
  • 分析这些项目的使用行为,包括点击流
  • 使用 A-B 测试验证算法
  • 使用 Spark Stream

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-01-04
    • 2011-09-12
    • 2011-07-12
    • 2013-12-26
    相关资源
    最近更新 更多