【问题标题】:Indexing and accessing odt files in solr在 solr 中索引和访问 odt 文件
【发布时间】:2014-03-30 21:11:56
【问题描述】:

如何在我的 solr_home 目录中存储的 odt 文件中发布、索引和搜索内容?

我已经尝试理解和应用下面提到的页面,并在架构中包含了一个正文字段:

Indexing text and html files

Simple Post Tool -Confluence

资源名称字段包含文件位置,但内容字段为空白。 但我仍然无法搜索文件内容,即使它显示文件已编入索引并且更改已提交。 是否有针对此类要求的端到端文档。 我在 linux 机器上使用 solr 和 Tomcat。 我是 solr 的新手,可能会错过上述页面中未提及的细节。

【问题讨论】:

    标签: search solr indexing schema odt


    【解决方案1】:

    使用 Apache tika 提取内容并将其发送到 SOLR

    Tika tika = new Tika();
    InputStream fileInputStream = new FileInputStream("d:\\fileName.odt");
    Metadata metadata = new Metadata();
    metadata.set(Metadata.RESOURCE_NAME_KEY, "fileName.odt");
    
    String content = tika.parseToString(fileInputStream, metadata);
    

    或者你也可以使用ExtractingRequestHandler

    【讨论】:

      【解决方案2】:

      需要 Apache Tika。在Apache Tika Download 找到它

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2014-12-23
        • 1970-01-01
        • 2019-01-01
        • 1970-01-01
        • 2014-01-25
        • 2018-04-26
        • 2016-11-12
        • 1970-01-01
        相关资源
        最近更新 更多