【问题标题】:Extracting text from DjVu with Apache Tika使用 Apache Tika 从 DjVu 中提取文本
【发布时间】:2021-05-12 22:00:06
【问题描述】:

我正在使用 Apache Tika 来处理 OCR 文件。使用 PDF 文件可以正常工作,但使用 djvu 是有问题的。从 1.14 版开始,Tika 似乎支持 Djvu。任何想法如何解决这个问题?

D:\java -jar tika-app-1.18.jar -eUTF-8 test.djvu

返回

sep 05, 2018 6:38:59 PM org.apache.tika.config.InitializableProblemHandler$3 handleInitializableProblem
WARNING: J2KImageReader not loaded. JPEG2000 files will not be processed.
See https://pdfbox.apache.org/2.0/dependencies.html#jai-image-io
for optional dependencies.

sep 05, 2018 6:38:59 PM org.apache.tika.config.InitializableProblemHandler$3 handleInitializableProblem
WARNING: org.xerial's sqlite-jdbc is not loaded.
Please provide the jar on your classpath to parse sqlite files.
See tika-parsers/pom.xml for the correct version.

    <?xml version="1.0" encoding="UTF-8"?><html xmlns="http://www.w3.org/1999/xhtml"
    >
    <head>
    <meta name="X-Parsed-By" content="org.apache.tika.parser.EmptyParser"/>
    <meta name="resourceName" content="test.djvu"/>
    <meta name="Content-Length" content="23038658"/>
    <meta name="Content-Type" content="image/vnd.djvu"/>
    <title/>
    </head>
    <body/></html>

【问题讨论】:

    标签: ocr apache-tika djvu


    【解决方案1】:

    刚刚检查了当前 (1.26) 的来源。从 1.14 开始,Apache Tika 似乎能够检测到 djvu 标头并报告该文件是 djvu 文档。这正是它所做的:

        <meta name="resourceName" content="test.djvu"/>
        <meta name="Content-Length" content="23038658"/>
        <meta name="Content-Type" content="image/vnd.djvu"/>
    

    输出中的其他错误和警告与 djvu 无关。
    而且 Apache Tika 没有 djvu 的解析器,所以除了文件类型检测之外什么也做不了。自 1.14 以来,没有任何关于 djvu 支持的更改。所以,Apache Tika 对 djvu 是没用的。人们可能会认为它根本不支持这种格式。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-01-06
      • 2011-10-03
      • 1970-01-01
      • 1970-01-01
      • 2011-03-30
      • 1970-01-01
      相关资源
      最近更新 更多