【问题标题】:Text recommendation with Lucene/solr/mahout使用 Lucene/solr/mahout 进行文本推荐
【发布时间】:2013-11-17 10:33:02
【问题描述】:

我正在开展一个需要实施文章/新闻推荐引擎的项目。 我正在考虑组合不同的方法(基于项目、基于用户、模型 CF)并且对要使用的工具有疑问。

从我的研究来看,Lucene 绝对是文本处理的工具,但对于推荐部分,它就不是那么清楚了。 如果我想基于文本相似性在文章上实现项目 CF: - 我看过使用 Mahout 和 solr (http://fr.slideshare.net/lucenerevolution/building-a-realtime-solrpowered-recommendation-engine) 的案例研究,因为它非常接近搜索问题,我认为 solr 可能更好,对吗? - 这两种工具在时间处理方面有什么区别(我认为 Mahout 更多的是批处理和 solr 实时)? - 我可以直接从 Lucene 获得文本距离吗(与 Lucene 相比,solr 的附加值对我来说不是很清楚)? - 对于更高级的方法(基于矩阵分解的模型),我会使用 Mahout,但 solr 中是否有任何类似 SVD 的功能来发现概念/标签?

感谢您的帮助。

【问题讨论】:

    标签: text solr lucene mahout mahout-recommender


    【解决方案1】:

    这取决于你的要求,如果你只需要离线推荐功能,mahout 很好。对于在线,我也在测试它。事实上,我已经用 lucene 和 mahout 进行了测试,它们可以很好地协同工作。对于 solr,我不太确定,我只知道它使用 lucene 作为其核心。所以所有繁重的工作仍然由lucene完成。就我而言,我在我的 java 程序中结合了 mahout 和 lucene,基本上 lucene 进行预处理和原始相似度计算,然后将结果发送到 mahout 进行进一步分析。

    【讨论】:

    • 您介意分享您的代码吗?我还尝试将保存在 lucene 索引中的一堆新闻文章聚集在一起。你从 mahout 中使用了什么样的集群?它的扩展性如何?谢谢!
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-10-25
    相关资源
    最近更新 更多