【问题标题】:No results when searching indexed PDF with Solr Cell使用 Solr Cell 搜索索引 PDF 时没有结果
【发布时间】:2012-02-28 10:24:05
【问题描述】:

我使用 Solr 已经有一段时间了,我最近尝试了 solr-cell 组件并且我正在索引一些 PDF,但是我遇到了与 this thread 中完全相同的问题。

当我在管理控制台中搜索 *:* 时,会列出 PDF。但是,当我在 PDF 中搜索内容时,我没有得到任何结果。

我已经尝试了那里给出的答案中的命令,但没有运气,我仍然遇到同样的问题,我尝试过不同的 Solr 版本(我使用的是 3.5 btw),不同的 PDF,我已经更改了字段在 schema.xml 中,我修改了 solrconfig.xml 中的 RequestHandlers,但似乎没有任何效果。任何帮助将不胜感激。

【问题讨论】:

  • 请发布您的架构、您用于索引的命令或代码以及查询。
  • “我已经更改了 schema.xml 中的字段” Solr 附带的架构包括 Solr CEL 的正确字段。至于q=*:*,可以在输出返回的字段里面搜索吗?

标签: pdf solr solr-cell


【解决方案1】:

我终于让它工作了。事实证明这是 fmap.content 输入参数的问题。我没有直接在 solrconfig.xml 文件中的 RequestHandler 上声明它,而是在我用来索引 PDF 文件的 curl 命令中传递它:

curl 'http://localhost:8080/solr/solrcell/update/extract?map.content=text&map.stream_name=id&commit=true' -F "file=@mccm.pdf"

我知道这种方式也应该可行,但正如您所见,有一个“地图”而不是“fmap” (我使用的是以前版本的 solr 中的书籍示例)。

我选择保留在 solrconfig.xml 文件中显式声明的 fmap 输入参数以节省任何问题:

<str name="fmap.content">text</str>


感谢您的帮助。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多