【发布时间】:2011-05-17 02:27:23
【问题描述】:
原帖发在https://stackoverflow.com/questions/6007097/design-question-for-notification-system
以下是对问题的更多说明:通知系统的目的是在网站内容发生更改或更新或发布新帖子时(目前通过电子邮件)通知用户。这可以被视为一个通知系统,人们在其中为 3rd 方站点定义规则或关键字,并且通知系统会爬取 3rd 方站点并创建搜索反向索引。然后为用户定义的关键字或规则显示一个新的链接或文档(关于用例的更多解释),
对于澄清的用例:假设我是 craigslist 用户并正在寻找二手车。我定义了一个规则“本田雅阁”,“年份” 1996 和价格范围从“2000 美元到 3000 美元”。
对于上述用例,最好的方法是什么,我如何利用开源技术(如 Apache Lucent、Apache Solr 和 Apache Nutch 以及 Apache Hadoop)来解决这个用例。 您可以构建搜索引擎并使用规则和关键字通知系统。我只需要一些关于如何集成这些开源包来解决用例的指示和帮助?
任何帮助和指针将不胜感激。我们需要三个重要的组件是:
1) 网络爬虫 2) 索引创建者 3) 规则或关键字 Mather任何帮助将不胜感激。我指的是这个将 Nutch 和 Solr 集成在一起的 wiki http://wiki.apache.org/nutch/RunningNutchAndSolr
【问题讨论】:
-
这是一个非常广泛的要求,不是一个容易回答的问题。我建议你提出一些更具体、更具体的问题。你开始实施这个系统了吗?您有任何特定的技术要求(即仅使用 java、mongodb 等)吗?
标签: algorithm search search-engine web-crawler