【问题标题】:Solr: Excluding certain HTML tags or only including certain tags within indexesSolr:排除某些 HTML 标签或仅在索引中包含某些标签
【发布时间】:2013-02-19 04:38:13
【问题描述】:

我目前正在使用 Solr-Cell 来抓取几个 html 页面的内容并将它们编入索引。问题是我在标题中有一个菜单,它显示在所有页面上。此菜单及其所有项目都出现在搜索结果中。我不希望它被编入索引。

你会如何做到这一点?

是否可以排除某些 DIV(带有类名或 id)?

【问题讨论】:

    标签: apache solr solr-cell


    【解决方案1】:

    实际上,如果你做测试,你会发现在 Solr 中使用 Tika 的方式,它剥离了大部分 HTML,包括 div、classes 和 ids 属性。

    因此,您可能无法获得所需的粒度,并且可能需要使用 RegexReplaceProcessorFactory UpdateRequestProcessor 之类的东西通过匹配纯文本来删除不需要的部分。

    如果您直接从代码中调用 Tika,您可以对其进行更多控制,并且可以将 IdentityHtmlMapper 设置为不进行 HTML 过滤。

    【讨论】:

    • 对这个问题的另一个警告是我是 SOLR 的初学者。我将研究 RegexReplaceProcessorFactory。目前我不确定将 TIKA 与 SOLR 分开。我的代码已完成 95%,我唯一要做的就是从结果中删除菜单项。否则,我会投入时间。
    猜你喜欢
    • 2014-01-27
    • 1970-01-01
    • 2013-08-01
    • 2015-08-12
    • 2011-08-22
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2010-10-14
    相关资源
    最近更新 更多