【发布时间】:2025-12-19 08:00:06
【问题描述】:
我正在使用 tesseract 运行 tika-server-1.23.jar,并使用 curl 通过 php 从文件中提取文本。有时使用 OCR 运行需要很长时间,所以我偶尔想排除运行 tesseract。我可以通过插入来做到这一点
<parser-exclude class="org.apache.tika.parser.ocr.TesseractOCRParser"/>
在 tika config xml 文件中,但这意味着它永远不会运行 tesseract。
我可以强制 tika 服务器通过 curl 在每个请求中选择性地跳过使用 tesseract 吗?如果可以,如何?
我有一个解决方法,我正在运行 tika 服务器的两个实例,每个实例都有一个不同的配置文件在不同的端口上侦听,但这是次优的。
提前致谢。
【问题讨论】:
标签: ocr tesseract apache-tika