【发布时间】:2019-05-21 06:56:50
【问题描述】:
我正在为我的项目使用 tika-app jar,有没有办法在 tika 中禁用 tesseract OCR。有两件事必须保持原样:
1.tesseract无法卸载
2.tika.xml 无法编辑,因为 tika-app.jar 是现成使用的
有没有办法在 java 代码中通过设置上下文或解析器属性来禁用 OCR 来设置配置?
我尝试了以下代码,但 OCR 在解析时仍然从图像文件中提取文本。
PDFParserConfig pdfConfig = new PDFParserConfig();
pdfConfig.setOcrStrategy(OCR_STRATEGY.NO_OCR);
context.set(PDFParserConfig.class, pdfConfig);```
【问题讨论】:
-
Tika App 很乐意接受作为命令行参数传递的 Tika Config xml 文件,为什么不这样做呢?
-
Tika 应用程序用作外部库文件,并以这种方式配置。是否可以通过java代码设置?
-
当然!只需使用您自己的设置创建一个
TikaConfig对象,然后将其传递给您正在使用的 Tika 代码 -
@Gagravarr 我在
TikaConfig上没有看到任何与 ocr 相关的选项,那该怎么做?
标签: java ocr tesseract apache-tika