【发布时间】:2014-09-13 13:16:43
【问题描述】:
我正在尝试从数据库中索引一些数据。数据库表中表示的每个页面都有一些链接文档。
我注意到索引通常有效,但来自 Tika 的字段“文本”被完全忽略并且根本不获取,日志中没有任何合理的异常。
我的数据配置:http://pastebin.com/XdwenPTE,我的架构:http://pastebin.com/zXEuFTHE,我的 solr 配置:http://pastebin.com/qLiuT0tq
你能看看我的配置并告诉我是否遗漏了什么吗?当我对索引数据进行查询时,甚至没有存在“文本”字段 - 为什么?
[编辑] 我将传递给 tika 的文件路径更改为:
url="${page_resource_list.FILE_PATH}"
但文件内容仍然没有被索引。有任何想法吗?我有一些关于找不到文件的例外情况(这很好,因为有些文件丢失了),但现有文件的任何问题也不例外。并且 tika 没有索引任何东西。
这似乎与此处描述的问题相同:Solr's TikaEntityProcessor not working - 但这真的还没有解决吗?
【问题讨论】:
标签: solr nested entity apache-tika