【问题标题】:Apache Tika : Settting classpath for opennlp models on tika-serverApache Tika:在 tika-server 上为 opennlp 模型设置类路径
【发布时间】:2018-08-20 17:09:15
【问题描述】:

我似乎无法为 tika-server 设置类路径,以便正确检测到 opennlp 模型。

我已按照此处的说明进行操作:

https://wiki.apache.org/tika/TikaAndNER

(用 app 代替 -server,看起来它包含了所有需要的东西)

我创建了以下文件夹结构

tika
`-- tika-ner-resources
    `-- org
        `-- apache
           `-- tika
              `-- parser
                  `-- ner
                    `-- opennlp
                       |-- ner-location.bin
                       |-- ner-organization.bin
                       `-- ner-person.bin

跑步

java -classpath tika/tika-ner-resources -jar tika-server-1.18.jar --config /etc/tika-config.xml -enableUnsecureFeatures -h 0.0.0.0

和发行 {{ curl -v -XPUT --data-binary @test.pdf http://localhost:9998/tika --header "Accept: text/plain" --header "Content-Type: application/pdf"}}

结果

INFO 将加载、实例化和绑定 org.apache.tika.parser.ner.opennlp.OpenNLPNERecogniser 的实例 警告无法使用类加载器从 org/apache/tika/parser/ner/opennlp/ner-location.bin 找到模型 信息位置 NER : 可提供服务?错误的 警告无法使用类加载器从 org/apache/tika/parser/ner/opennlp/ner-organization.bin 找到模型 INFO ORGANIZATION NER : 可提供服务?错误的 警告无法使用类加载器从 org/apache/tika/parser/ner/opennlp/ner-date.bin 找到模型 信息日期 NER : 可提供服务?错误的 警告无法使用类加载器从 org/apache/tika/parser/ner/opennlp/ner-money.bin 找到模型 INFO MONEY NER : 可以提供服务吗?错误的 警告无法使用类加载器从 org/apache/tika/parser/ner/opennlp/ner-person.bin 找到模型 INFO PERSON NER:可以提供服务吗?错误的 警告无法使用类加载器从 org/apache/tika/parser/ner/opennlp/ner-percentage.bin 找到模型 INFO PERCENT NER : 可提供服务?错误的 警告无法使用类加载器从 org/apache/tika/parser/ner/opennlp/ner-time.bin 找到模型 INFO TIME NER : 可用于服务?错误的 信息 org.apache.tika.parser.ner.opennlp.OpenNLPNERecogniser 可用?错误的 INFO 将加载、实例化和绑定 org.apache.tika.parser.ner.regex.RegexNERecogniser 的实例 信息 org.apache.tika.parser.ner.regex.RegexNERecogniser 可用?错误的 INFO 链 0 中 NERecognisers 的数量

似乎唯一可行的方法是通过添加 tika/tika-ner-resources 目录(即 org/blah/blah/*.bin)的内容来重新打包 jar。然后 curl 命令执行没有任何问题。我也尝试了几乎所有设置类路径的组合。

有人有什么想法吗?

【问题讨论】:

    标签: apache-tika


    【解决方案1】:

    对于其他有问题的人,通过删除 -jar 并手动指定 TikaServerCli 类,以下命令对我有用

    java -classpath tika/tika-ner-resources/:tika-server-1.18.jar  
    org.apache.tika.server.TikaServerCli --config /etc/tika-config.xml -enableUnsecureFeatures -h 0.0.0.0
    

    【讨论】:

    • 我们为 tika-docker 中的常见场景汇总了一些示例,这些示例可能对其他人有用。 NER 配置文件为here。我整理了一些关于如何使用它们的文章here
    猜你喜欢
    • 1970-01-01
    • 2016-03-21
    • 1970-01-01
    • 1970-01-01
    • 2015-04-23
    • 2011-10-31
    • 2013-10-25
    • 1970-01-01
    • 2015-06-26
    相关资源
    最近更新 更多