【问题标题】:How to change the language parameter that Tika passes to Tesseract OCR?如何更改 Tika 传递给 Tesseract OCR 的语言参数?
【发布时间】:2017-11-24 14:25:04
【问题描述】:

目前我正在使用 tika-app-1.16.jar 对我的 PDF 进行 OCR(与 Tesseract 结合使用时): java -jar tika-app-1.16.jar /tmp/testing/input.pdf

但是,默认情况下它只支持英文。而且我想找到一种方法来传递不同的语言。

关于文档:

使用 OCR 解析器时,Tika 将使用以下默认设置:

  • Tesseract 安装路径 = ""
  • 语言词典 = "eng"
  • 页面分割模式 = "1"
  • 最小文件大小 = 0
  • 最大文件大小 = 2147483647
  • 超时 = 120

要更改这些设置,您可以修改 tika-parser/src/main/resources/org/apache/tika/parser/ocr 中现有的 TesseractOCRConfig.properties 文件,或者通过创建自己的并将其放置在在你的类路径中打包 org/apache/tika/parser/ocr。

值得注意的是,在使用其中一个可执行 JAR(tika-app 或 tika-server JAR)时执行此操作将要求您在不使用 -jar 命令的情况下执行它们。例如,对于 tika-app 或 tika-server,分别如下所示:

java -cp /path/to/your/classpath:/path/to/tika-app-X.X.jar org.apache.tika.cli.TikaCLI

java -cp /path/to/your/classpath:/path/to/tika-server-1.7-SNAPSHOT.jar org.apache.tika.server.TikaServerCli

对于 Tika App 的用户,除了 sytem 属性和环境变量之外,您还可以使用 --config=[tika-config.xml] 选项来选择不同的 Tika Config XML 文件来使用

对于 Tika Server 的用户,除了 sytem 属性和环境变量外,还可以使用 -c [tika-config.xml] 或 --config [tika-config.xml] 选项来选择不同的要使用的 Tika Config XML 文件

但是,我还没有找到可以更改 Tesseract OCR 使用的语言的 tika-config.xml 工作示例。有没有可用的例子?

【问题讨论】:

  • 为什么不像第一个 sn-p 所说的那样,复制属性文件,更改它,然后将其弹出到类路径的正确位置?
  • @Gagravarr 目前我正在使用 Tika 应用程序二进制文件(不是完整的源代码安装)。通过查看示例,我添加了一个 Tesseract.properties 文件并尝试引用它(类路径?)。但是,没有任何区别(我不确定它是否已注册):java -cp tika-parser/src/main/resources/org/apache/tika/parser/ocr/TesseractOCRConfig.properties:tika-app-1.16 .jar org.apache.tika.cli.TikaCLI /tmp/testing/sample.pdf
  • 不要在类路径中指定属性的路径,指定保存其树的根目录的路径,例如 tika-parser/src/main/resources 在你的情况下

标签: apache-tika tika-server


【解决方案1】:

我正在使用下一个“拐杖” - 用具有相同名称的 bash 脚本替换原始 tesseract 文件,该脚本替换运行参数 =)

我的 /usr/bin/tesseract 文件:

#!/bin/sh

args=$@
args=${args/eng/rus} #replace eng => rus 
export TESSDATA_PREFIX=/usr/share/tesseract/
# tesseract_ori <-- original tesseract 
/usr/bin/tesseract_ori $args >> /tmp/tess.log 2>&1

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2019-03-24
    • 2018-02-25
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多