【发布时间】:2015-06-26 12:55:27
【问题描述】:
我正在使用 Apache Tika、1.7 和 Apache POI 从 Maven 构建的项目中的 .doc 和 docx 文档中提取文本。出于某种原因,我得到了
java.lang.NoSuchMethodError: org.apache.poi.util.IOUtils.calculateChecksum
错误。正如Apache POI FAQ 中所说,这是由版本问题引起的。所以显而易见的解决方案是升级 POI 或其他东西。问题是我使用的是与 tika 捆绑在一起的 POI 版本,在 tika-parsers 包中。这是因为我使用的是 Tika 类型的检测器,这是我使用的 Tika 的唯一部分(POI 除外)。问题是,如果我只使用 tika-core 包并在 maven pom.xml 中独立声明 POI 依赖项,Tika 检测器将停止检测容器类型,如 .docx 文件,因为 tika-parsers 包对于检测器,如here 所述。那么,我该如何解决呢?我想用 tika 做准确的类型检测,但我也想用 Apache POI 除了 Tika。
谢谢
【问题讨论】:
标签: java maven apache-poi apache-tika