【问题标题】:Apache Solr - indexing PDF filesApache Solr - 索引 PDF 文件
【发布时间】:2012-04-13 14:40:27
【问题描述】:

您好,我已尝试使用二进制分发版执行此操作,并自己编译了源代码。也尝试使用 Apache Tomcat 运行它。但是当我使用 pdf 文件进行索引时,我总是收到以下错误。我正在使用 Solr 示例项目中提供的 post.jar。

SimplePostTool: version 1.3
SimplePostTool: POSTing files to http://localhost:8983/solr/update..
SimplePostTool: POSTing file 4538a001.pdf
SimplePostTool: FATAL: Solr returned an error #400 Invalid UTF-8 middle byte 0xe
3 (at char #10, byte #-1)

我也尝试在 Win 7 (JDK 1.7) 和 Centos (1.6) 上运行它。

我在互联网上搜索并在错误跟踪器上找到了 Jetty jar 文件的修补版本,但即使替换了这些版本,问题仍然存在。

非常感谢您的帮助,因为我被困在这里,无法继续执行其他任务。

谢谢

【问题讨论】:

    标签: solr lucene solr-cell


    【解决方案1】:

    Solr 更新是一种特定的 XML 格式,因此它拒绝 PDF 文件。

    您可以配置将解析 PDF 文件的提取请求处理程序,然后将提取的文本作为更新处理。

    见:http://wiki.apache.org/solr/ExtractingRequestHandler

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2014-07-12
      相关资源
      最近更新 更多