【问题标题】:Tika with Grobid throwing error when parsing pdf document解析 pdf 文档时,带有 Grobid 的 Tika 抛出错误
【发布时间】:2020-07-16 10:29:50
【问题描述】:

我正在尝试从 pdf 文档中提取文档元数据和期刊标题元数据。我验证了 Tika Server (v1.21 / v1.24) 和 Grobid (v0.6.0) 能够独立地从 pdf 文档中提取元数据。但是,当我在 Tika Server 中运行 Grobid 时(遵循 https://cwiki.apache.org/confluence/display/TIKA/GrobidJournalParser 中提到的说明),对于同一个 pdf 文档,我收到以下错误 (sn-p):

org.xml.sax.SAXParseException; Premature end of file.
        at org.apache.xerces.parsers.DOMParser.parse(Unknown Source)
        at org.apache.xerces.jaxp.DocumentBuilderImpl.parse(Unknown Source)
        at javax.xml.parsers.DocumentBuilder.parse(DocumentBuilder.java:121)
        at org.apache.tika.utils.XMLReaderUtils.buildDOM(XMLReaderUtils.java:407)
        at org.apache.tika.parser.journal.TEIDOMParser.parse(TEIDOMParser.java:44)
        at org.apache.tika.parser.journal.GrobidRESTParser.parse(GrobidRESTParser.java:85)
        at org.apache.tika.parser.journal.JournalParser.parse(JournalParser.java:60)
        at org.apache.tika.parser.ParserDecorator.parse(ParserDecorator.java:188)
        at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:280)
        at org.apache.tika.parser.ParserDecorator.parse(ParserDecorator.java:188)
        at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:280)
        at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:143)
        at org.apache.tika.parser.RecursiveParserWrapper.parse(RecursiveParserWrapper.java:224)
        at org.apache.tika.server.resource.TikaResource.parse(TikaResource.java:422)
    .... 

我运行了以下命令以使用 Grobid 启动 Tika Server:

java -classpath /home/avlurs/grobid-0.6.0/grobidparser-resources/:tika-server-1.21.jar org
.apache.tika.server.TikaServerCli --config /home/avlurs/grobid-0.6.0/grobidparser-resources/tika-config.xml &

我运行了以下命令来测试元数据提取:

curl -T /home/avlurs/temp/in/JournalTest.pdf -H "Content-Disposition: attachment;filename=
JournalTest.pdf" http://localhost:9998/rmeta

除了抛出上述错误之外,我还在输出中从 Tika 获取文档元数据。但是,Grobid 元数据并未被提取。

感谢任何解决此问题的意见/建议。谢谢。

【问题讨论】:

    标签: tika-server grobid


    【解决方案1】:

    2017 年 7 月,Grobid 服务将其 API 端点的位置更新到 /api 下,但 GrobidParser 并未更新为使用新位置。

    作为TIKA-3191 的一部分,我刚刚对此进行了修复,它将在 Tika 1.25 中发布。我们希望在接下来的几周内将其发布,但在那之前您可以使用源代码构建或快照构建。

    我还计划更新 Tika GrobidParser Wiki Page 以提供更多最新说明,解释使用当前 Gradle 构建和 Grobid 近来提供的 Docker 映像选项。

    【讨论】:

    • Apache Tika 1.25 现已发布,其中包含修复程序。我还创建了一个基于 docker-compose 的示例 here,供任何想要尝试的人使用。
    猜你喜欢
    • 1970-01-01
    • 2017-07-15
    • 1970-01-01
    • 2011-09-02
    • 2023-04-05
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多