【发布时间】:2018-08-20 17:09:15
【问题描述】:
我似乎无法为 tika-server 设置类路径,以便正确检测到 opennlp 模型。
我已按照此处的说明进行操作:
https://wiki.apache.org/tika/TikaAndNER
(用 app 代替 -server,看起来它包含了所有需要的东西)
我创建了以下文件夹结构
tika
`-- tika-ner-resources
`-- org
`-- apache
`-- tika
`-- parser
`-- ner
`-- opennlp
|-- ner-location.bin
|-- ner-organization.bin
`-- ner-person.bin
跑步:
java -classpath tika/tika-ner-resources -jar tika-server-1.18.jar --config /etc/tika-config.xml -enableUnsecureFeatures -h 0.0.0.0
和发行 {{ curl -v -XPUT --data-binary @test.pdf http://localhost:9998/tika --header "Accept: text/plain" --header "Content-Type: application/pdf"}}
结果
INFO 将加载、实例化和绑定 org.apache.tika.parser.ner.opennlp.OpenNLPNERecogniser 的实例 警告无法使用类加载器从 org/apache/tika/parser/ner/opennlp/ner-location.bin 找到模型 信息位置 NER : 可提供服务?错误的 警告无法使用类加载器从 org/apache/tika/parser/ner/opennlp/ner-organization.bin 找到模型 INFO ORGANIZATION NER : 可提供服务?错误的 警告无法使用类加载器从 org/apache/tika/parser/ner/opennlp/ner-date.bin 找到模型 信息日期 NER : 可提供服务?错误的 警告无法使用类加载器从 org/apache/tika/parser/ner/opennlp/ner-money.bin 找到模型 INFO MONEY NER : 可以提供服务吗?错误的 警告无法使用类加载器从 org/apache/tika/parser/ner/opennlp/ner-person.bin 找到模型 INFO PERSON NER:可以提供服务吗?错误的 警告无法使用类加载器从 org/apache/tika/parser/ner/opennlp/ner-percentage.bin 找到模型 INFO PERCENT NER : 可提供服务?错误的 警告无法使用类加载器从 org/apache/tika/parser/ner/opennlp/ner-time.bin 找到模型 INFO TIME NER : 可用于服务?错误的 信息 org.apache.tika.parser.ner.opennlp.OpenNLPNERecogniser 可用?错误的 INFO 将加载、实例化和绑定 org.apache.tika.parser.ner.regex.RegexNERecogniser 的实例 信息 org.apache.tika.parser.ner.regex.RegexNERecogniser 可用?错误的 INFO 链 0 中 NERecognisers 的数量
似乎唯一可行的方法是通过添加 tika/tika-ner-resources 目录(即 org/blah/blah/*.bin)的内容来重新打包 jar。然后 curl 命令执行没有任何问题。我也尝试了几乎所有设置类路径的组合。
有人有什么想法吗?
【问题讨论】:
标签: apache-tika