【问题标题】:How to extract inline images from PDF using Apache Tika Server and save them as files?如何使用 Apache Tika Server 从 PDF 中提取内嵌图像并将它们保存为文件?
【发布时间】:2021-06-01 19:46:19
【问题描述】:

有没有办法做到这一点?我在对http://localhost:9998/tika的 PUT 请求中使用了以下标头

"Content-Type", "application/pdf"
"X-Tika-OCRLanguage", "eng"
"X-Tika-PDFextractInlineImages", "true"
"X-Tika-PDFOcrStrategy", "no_ocr"

响应中会包含图片吗?如果是这样,我该如何保存它们?

使用 Apache Tika 服务器 1.26

【问题讨论】:

标签: apache-tika tika-server


【解决方案1】:

响应将是字符串而不是图像 标志:PDFOcrStrategy 告诉 tika 使用 ocr (tesseract) 或仅尝试从没有 ocr 的文档中提取文本 - 对于本机 pdf 很有用

标志:PDFextractInlineImages 告诉 tika 忽略/包含嵌入的图像

因此,当您拥有扫描的 pdf 文件时,您应该使用
“X-Tika-PDFextractInlineImages”,“真” “X-Tika-PDFOcrStrategy”、“ocr_only” 对于原生 pdf “X-Tika-PDFextractInlineImages”,“假” “X-Tika-PDFOcrStrategy”、“no_ocr” 但在这两种情况下,tika 都会返回文本

如果您想从 pdf 文档 IMO 中获取图像,您应该使用 pdf 框或类似的库。 tika 的目标是从输入中返回文本

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2023-03-05
    • 2018-01-06
    • 1970-01-01
    • 1970-01-01
    • 2015-11-28
    • 1970-01-01
    • 2021-05-19
    • 2017-03-27
    相关资源
    最近更新 更多