【发布时间】:2013-02-19 04:38:13
【问题描述】:
我目前正在使用 Solr-Cell 来抓取几个 html 页面的内容并将它们编入索引。问题是我在标题中有一个菜单,它显示在所有页面上。此菜单及其所有项目都出现在搜索结果中。我不希望它被编入索引。
你会如何做到这一点?
是否可以排除某些 DIV(带有类名或 id)?
【问题讨论】:
我目前正在使用 Solr-Cell 来抓取几个 html 页面的内容并将它们编入索引。问题是我在标题中有一个菜单,它显示在所有页面上。此菜单及其所有项目都出现在搜索结果中。我不希望它被编入索引。
你会如何做到这一点?
是否可以排除某些 DIV(带有类名或 id)?
【问题讨论】:
实际上,如果你做测试,你会发现在 Solr 中使用 Tika 的方式,它剥离了大部分 HTML,包括 div、classes 和 ids 属性。
因此,您可能无法获得所需的粒度,并且可能需要使用 RegexReplaceProcessorFactory UpdateRequestProcessor 之类的东西通过匹配纯文本来删除不需要的部分。
如果您直接从代码中调用 Tika,您可以对其进行更多控制,并且可以将 IdentityHtmlMapper 设置为不进行 HTML 过滤。
【讨论】: