【发布时间】:2019-01-01 23:57:42
【问题描述】:
我正在尝试使用 tika 包来解析文件。 Tika安装成功,tika-server-1.18.jar在cmd中运行CodeJava -jar tika-server-1.18.jar
我在 Jupyter 中的代码是:
Import tika
from tika Import parser
parsed = parser.from_file('')
但是,我收到以下错误:
2018-07-25 10:20:13,325 [MainThread] [WARNI] 未能看到启动 日志消息;重试... 2018-07-25 10:20:18,329 [主线程] [WARNI] 无法查看启动日志消息;重试... 2018-07-25 10:20:23,332 [MainThread] [WARNI] 无法查看启动日志 信息;重试... 2018-07-25 10:20:28,340 [主线程] [错误] 3 次尝试后未收到 Tika 启动日志消息。 2018-07-25 10:20:28,340 [MainThread] [ERROR] 无法接收启动 来自 startServer 的确认。
RuntimeError: 无法启动 Tika Server。
【问题讨论】:
-
这个问题有什么更新吗?我收到相同的错误消息。
-
放弃使用TIKA Server,改用TikaApp解决问题。 “tika_client = TikaApp(file_jar = ''(我存储 tika 应用程序的地方)。它有效。不幸的是,对于解析器我还没有找到解决方案。
-
使用 TikaApp,
tika_client.extract_all_content(path_to_file)返回一个空字符串 -
这个答案解决了我的问题。 stackoverflow.com/a/36628583/5403632
标签: python parsing apache-tika