Apache Tika Server 无法从 startServer 接收启动确认答案

【问题标题】：Apache Tika Server Failed to receive startup confirmation from startServerApache Tika Server 无法从 startServer 接收启动确认
【发布时间】：2019-11-07 23:33:48
【问题描述】：

我正在尝试在 python 中使用 Tika 从 pdf 文件中提取文本。我的系统上安装了 Java 8。尽管如此，我无法将这些 pdf 转换为文本文件。以下是我正在使用的代码：

    file_name = file.split('\\')[-1]
    path = "C:/Users/user_name/PDF_Files/"+file_name
    raw = parser.from_file(path)
    name = path.split('/')[-1][:-4]
    print(name)
    file_name = "C:/Users/user_name/PDF_Files/"+name+".txt"
    text_file = open(file_name,"w",encoding="utf-8")
    if raw['content'] is not None:
        text_file = open(file_name,"w",encoding="utf-8")
        text_file.write(raw['content'])
        text_file.close()

 for file in glob.glob("C:/Users/user_name/PDF_Files/*.pdf"):
    gettext(file)

以下是运行上述代码后我收到的错误消息： Error Message

2019-11-07 15:09:06,062 [主线程] [错误] 无法运行 java；安装了吗？ 2019-11-07 15:09:06,062 [MainThread] [ERROR] 无法从 startServer 接收启动确认。

【问题讨论】：

Java 在您的道路上吗？从命令行运行java -version 有效吗？
@Gagravarr 在 cmd 提示符下运行 java -version 返回消息：'java' 不是内部或外部命令、可运行程序或批处理文件。
好吧，那你需要解决这个问题！将 Java 添加到您的 PATH，然后仅在可以正常运行 java 后再次尝试 Tika

标签： python pdf apache-tika text-extraction

【解决方案1】：

遇到同样的问题，经过一番尝试，我解决了这个问题

对于ubuntu，在终端中

java --version

1.路径不正确 -> 配置它。

2.旧的java版本->更新它。

3. Java 不可用 -> 安装它

我按照下面的安装方式

sudo apt update
sudo apt install default-jdk # Confirm the installation by typing y (yes) and press Enter.
sudo apt update
sudo apt install default-jre
sudo apt install software-properties-common
sudo add-apt-repository ppa:linuxuprising/java
sudo apt update
sudo apt install oracle-java11-installer

终于再检查一遍，

java --version

现在继续检查tika！

【讨论】：