【发布时间】:2010-08-17 21:50:26
【问题描述】:
我正在寻找一种搜索解决方案,该解决方案将识别字符串(公司名称)并将这些字符串用于 Solr 中的搜索和构面。
我是 Nutch 和 Solr 的新手,所以我想知道这是在 Nutch 中还是在 Solr 中最好。一种解决方案是在 Nutch 中生成一个解析器,用于识别有问题的字符串,然后索引公司名称,然后映射到 Solr 值。我不确定如何,但我想这也可以直接从文本中在 Solr 中完成?
在 Nutch 或 Solr 中进行此字符串识别是否有意义,Solr 或 Nutch 中是否有一些功能可以帮助我?
谢谢。
【问题讨论】:
-
1.源文件在哪里? 2. 谁提供公司名称列表?
-
@ms: 1. 源文档位于一组网站上,我使用 nutch 抓取它们。 2. 我将自己维护公司名称列表,无论是在数据库中还是在纯 XML 文件中