【发布时间】:2020-04-09 17:31:46
【问题描述】:
没有 Docker,脚本能够使用 tika 解析 pdf 文件。
但是,当我尝试使用 Docker 时,我收到以下错误,因为 tika 服务器未运行:通过一些阅读,我尝试了以下操作 - 但错误仍然存在。
有人可以帮忙吗?
我最后附上 Dockerfile 并列出正在运行的 docker 容器 -
- docker pull apache/tika
- docker run -d -p 9998:9998 apache/tika
- cat Dockerfile(在最后列出)
- docker build -t docker_parser .
docker run docker_parser
docker ps -a
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
8ff9fd3d0a84 docker_parser "python ./scripts/..." 2 days ago Exited (0) 4 minutes ago adoring_mestorf
fdf132926c61 apache/tika "/bin/sh -c 'java ..." 2 days ago Up 6 minutes 0.0.0.0:9998->9998/tcp optimistic_ride
- Dockerfile:
FROM python:3
RUN pip3 install --upgrade pip requests
RUN pip3 install python-docx tika numpy pandas
RUN mkdir scripts
RUN mkdir pdfs
RUN mkdir output
ADD runner.py /scripts/
ADD header_parser.py /scripts/
ADD keyword_parser.py /scripts/
ADD *.pdf /pdfs/
CMD [ "python", "./scripts/runner.py" ]
8.代码中的错误: sentence_parser 糟糕!错误类型:发生。详细信息:无法启动 Tika 服务器。错误类型:在第 156 行
【问题讨论】:
-
Apache Tika 服务器是用 Java 编写的,你的 docker 镜像中也有吗? (看起来不是……)
标签: python docker apache-tika tika-server