【问题标题】:Solr - can't parse files using tika nested entitySolr - 无法使用 tika 嵌套实体解析文件
【发布时间】:2014-09-13 13:16:43
【问题描述】:

我正在尝试从数据库中索引一些数据。数据库表中表示的每个页面都有一些链接文档。

我注意到索引通常有效,但来自 Tika 的字段“文本”被完全忽略并且根本不获取,日志中没有任何合理的异常。

我的数据配置:http://pastebin.com/XdwenPTE,我的架构:http://pastebin.com/zXEuFTHE,我的 solr 配置:http://pastebin.com/qLiuT0tq

你能看看我的配置并告诉我是否遗漏了什么吗?当我对索引数据进行查询时,甚至没有存在“文本”字段 - 为什么?

[编辑] 我将传递给 tika 的文件路径更改为:

url="${page_resource_list.FILE_PATH}"

但文件内容仍然没有被索引。有任何想法吗?我有一些关于找不到文件的例外情况(这很好,因为有些文件丢失了),但现有文件的任何问题也不例外。并且 tika 没有索引任何东西。

这似乎与此处描述的问题相同:Solr's TikaEntityProcessor not working - 但这真的还没有解决吗?

【问题讨论】:

    标签: solr nested entity apache-tika


    【解决方案1】:

    FILE_PATH 的实体引用是 ${page_resource_list.FILE_PATH},而不是 ${page_content.FILE_PATH}(仅将 CONTENT 定义为列)。

    您还有一个LogTransformer,它可以帮助您在编制索引时为您提供有关字段实际内容的更好的调试信息。

    【讨论】:

    • 这是我的错.. 来自 dabase 的文件路径错误。但是我对多值字段还有一些其他问题,但我会为它创建另一个问题。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2016-10-25
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-09-04
    • 1970-01-01
    相关资源
    最近更新 更多