【发布时间】:2016-06-28 23:53:30
【问题描述】:
到目前为止,我只能找到一些推荐引擎,它们基于 csv 文件作为数据集在内存中构建和部署所有内容,因此如果每天有大约 1 M 的数据和大约 3700 个用户。 我的情况是,我的公司有大约 100 万个活跃项目,每天大约 4000 个活跃用户(平均)和每周大约 450 万页面访问量(平均)。
在内存接缝中构建、训练和推荐项目的想法太糟糕了,所以我正在考虑构建一个推荐引擎,但有点实时!如何 ?这就是我正在寻找的东西,也许可以训练数据并将其部署到像 elasticsearch 这样的索引器或类似于推荐项的东西。
任何分段?
【问题讨论】:
-
Spark 仍然可以处理无法放入内存的数据,你见过这个article吗?
标签: apache-spark real-time recommendation-engine