【问题标题】:Access TIKA URL using postman/curl使用 postman/curl 访问 TIKA URL
【发布时间】:2026-02-03 22:15:01
【问题描述】:

我刚刚在我的 Mac 上以服务器模式启动 Tika,但遇到了一些问题。虽然我可以访问 URL,但控制台挂起,并且我只有在取消请求时才能获取提取的文件。

例如: 如果我使用

使用 curl 进行连接
 curl -T ./myfile.pptx http://127.0.0.1:8103/tika

控制台挂起,当我取消连接时(使用 Ctrl+C),它返回提取的文件(但没有文本)。

我也尝试过PUT in postman,但没有成功。邮递员挂了

我用来运行 tika 的命令是

java -jar tika-app-1.16-SNAPSHOT.jar -z -t --extract-dir=/Users/israelzinc/Desktop/pictures/ --server --port 8103

谁能帮我解开这个谜团?

P.S.:如果我使用 netcat 就可以了,例如:

nc 127.0.0.1 8103 < myfile.pptx

提前致谢,

以色列

【问题讨论】:

  • 你没有在服务器模式下使用 Tika!您需要使用 Tika Server jar tika-server-1.16.jar 而不是 Tika App!
  • 谢谢@Gargravarr!它就像一个魅力,但现在我该如何提取图像?我现在可以轻松获取文本了。

标签: java python curl apache-tika netcat


【解决方案1】:

帖子似乎很旧,但以防万一您需要它或将来有人需要它。

在 Postman 上使用 PDF 文件进行测试:

网址

http://localhost:9998/tika

标题

改变 Content-type: application/pdf

身体 表单数据

key: file, value: (select your pdf file)

【讨论】: