【发布时间】:2019-11-07 23:33:48
【问题描述】:
我正在尝试在 python 中使用 Tika 从 pdf 文件中提取文本。我的系统上安装了 Java 8。尽管如此,我无法将这些 pdf 转换为文本文件。以下是我正在使用的代码:
file_name = file.split('\\')[-1]
path = "C:/Users/user_name/PDF_Files/"+file_name
raw = parser.from_file(path)
name = path.split('/')[-1][:-4]
print(name)
file_name = "C:/Users/user_name/PDF_Files/"+name+".txt"
text_file = open(file_name,"w",encoding="utf-8")
if raw['content'] is not None:
text_file = open(file_name,"w",encoding="utf-8")
text_file.write(raw['content'])
text_file.close()
for file in glob.glob("C:/Users/user_name/PDF_Files/*.pdf"):
gettext(file)
以下是运行上述代码后我收到的错误消息: Error Message
2019-11-07 15:09:06,062 [主线程] [错误] 无法运行 java;安装了吗? 2019-11-07 15:09:06,062 [MainThread] [ERROR] 无法从 startServer 接收启动确认。
【问题讨论】:
-
Java 在您的道路上吗?从命令行运行
java -version有效吗? -
@Gagravarr 在 cmd 提示符下运行 java -version 返回消息:'java' 不是内部或外部命令、可运行程序或批处理文件。
-
好吧,那你需要解决这个问题!将 Java 添加到您的
PATH,然后仅在可以正常运行 java 后再次尝试 Tika
标签: python pdf apache-tika text-extraction