【发布时间】:2011-03-18 00:30:28
【问题描述】:
我正在我的应用程序中构建一个推荐系统,我可能会使用 apache mahout,我要收集一个大数据集,它会在一段时间内收集...所以在收集之间哪个最便宜它在某种日志文件中与在数据库中收集并在我需要时导出它
【问题讨论】:
标签: mahout recommendation-engine collaborative-filtering
我正在我的应用程序中构建一个推荐系统,我可能会使用 apache mahout,我要收集一个大数据集,它会在一段时间内收集...所以在收集之间哪个最便宜它在某种日志文件中与在数据库中收集并在我需要时导出它
【问题讨论】:
标签: mahout recommendation-engine collaborative-filtering
如果数据格式合理,Mahout 的推荐代码可以直接从数据库或文件中读取。它不会读取一般日志文件;它们需要被翻译成简单的 CSV 或 TSV。但它几乎可以读取任何包含用户/项目/首选项的表。
如果您已经将数据放入数据库表中,我会说将其保留在那里,不要复制或不必要地导出它。如果可能的话,您可能希望 Mahout 将所有这些内容都吸到内存中。
如果您还没有存储这些数据,并且想选择一种简单有效的表示形式,那么我建议您提取用户/项目/偏好信息并将它们存储在简单的 CSV 文件中,并使用 gzip 压缩。这些也可以很容易地与 Mahout 一起使用,并且比完整的日志文件或数据库更简单、更紧凑。
【讨论】: