【发布时间】:2019-10-09 14:37:16
【问题描述】:
我正在使用带有 Java 的 Apache Tika 从 PDF 和 Zip 文件中提取文本。现在在处理大文件时,我想向我的应用程序添加进度报告。为此,我需要估计提取大小来计算完成的百分比(通过将其与写入输出的字节数相匹配)。
我搜索了很多,在任何地方都找不到与此相关的任何内容。
apache tika 是否提供任何类型的进度报告? 有什么解决方法吗?
编辑:
我正在使用org.apache.tika 组中的 apache tika tika-parsers、tika-server 的 Java 库。并通过Java直接调用它们,代码如下。
AutoDetectParser parser = new AutoDetectParser();
ParseContext context = getParseContext(extractionPolicy, parser);
Metadata metadata = new Metadata();
parser.parse(inputStream, handler, metadata, context);
return metadata;
【问题讨论】:
-
您在处理文件中的嵌入资源吗?如果是这样,怎么办?以及您如何首先调用 Apache Tika - 服务器、应用程序、Java 代码、Python 等?
-
不,我没有明确处理任何嵌入式资源。我正在使用
org.apache.tika组中的 tika 库tika-server和tika-parsers。 -
Tika Server 是一个独立的可运行 REST 服务器,您可以在主 JVM 之外运行它,或者在您的程序中使用 Tika Core + Parsers!贴出你实际使用的代码
-
我在问题中发布了代码。
标签: java pdf zip filesize apache-tika