【问题标题】:Apache Tika Server Failed to receive startup confirmation from startServerApache Tika Server 无法从 startServer 接收启动确认
【发布时间】:2019-11-07 23:33:48
【问题描述】:

我正在尝试在 python 中使用 Tika 从 pdf 文件中提取文本。我的系统上安装了 Java 8。尽管如此,我无法将这些 pdf 转换为文本文件。以下是我正在使用的代码:

    file_name = file.split('\\')[-1]
    path = "C:/Users/user_name/PDF_Files/"+file_name
    raw = parser.from_file(path)
    name = path.split('/')[-1][:-4]
    print(name)
    file_name = "C:/Users/user_name/PDF_Files/"+name+".txt"
    text_file = open(file_name,"w",encoding="utf-8")
    if raw['content'] is not None:
        text_file = open(file_name,"w",encoding="utf-8")
        text_file.write(raw['content'])
        text_file.close()

 for file in glob.glob("C:/Users/user_name/PDF_Files/*.pdf"):
    gettext(file)

以下是运行上述代码后我收到的错误消息: Error Message

2019-11-07 15:09:06,062 [主线程] [错误] 无法运行 java;安装了吗? 2019-11-07 15:09:06,062 [MainThread] [ERROR] 无法从 startServer 接收启动确认。

【问题讨论】:

  • Java 在您的道路上吗?从命令行运行java -version 有效吗?
  • @Gagravarr 在 cmd 提示符下运行 java -version 返回消息:'java' 不是内部或外部命令、可运行程序或批处理文件。
  • 好吧,那你需要解决这个问题!将 Java 添加到您的 PATH,然后仅在可以正常运行 java 后再次尝试 Tika

标签: python pdf apache-tika text-extraction


【解决方案1】:

遇到同样的问题,经过一番尝试,我解决了这个问题

对于ubuntu,在终端中

java --version

1.路径不正确 -> 配置它。

2.旧的java版本->更新它。

3. Java 不可用 -> 安装它

我按照下面的安装方式

sudo apt update
sudo apt install default-jdk # Confirm the installation by typing y (yes) and press Enter.
sudo apt update
sudo apt install default-jre
sudo apt install software-properties-common
sudo add-apt-repository ppa:linuxuprising/java
sudo apt update
sudo apt install oracle-java11-installer

终于再检查一遍,

java --version

现在继续检查tika!

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2015-03-31
    • 1970-01-01
    • 2015-03-20
    • 2023-04-02
    • 2020-03-12
    • 2011-06-15
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多