【发布时间】:2012-03-06 14:14:01
【问题描述】:
我有一组使用 nutch 抓取的页面。而且我知道这个抓取的页面被保存为段。我想从此页面中提取某些键值并将其作为 xml 提供给 solr。
一个示例情况是,我抓取了一个包含许多产品列表的购物网站。我想提取产品的名称、价格、规格等关键信息,并忽略其余数据。这样我就可以提供一些 xml 来解决 qwerty123qwerty 这样,使用 solr 我应该能够根据价格对不同的产品列表进行排序。
现在这个提取部分怎么做? map reduce 有没有出现在图片中的任何地方?
【问题讨论】:
标签: solr lucene mapreduce nutch