使用 Apache Tika 解析 iWorksDocument 的问题答案

【问题标题】：Issue in parsing iWorksDocument with Apache Tika使用 Apache Tika 解析 iWorksDocument 的问题
【发布时间】：2016-04-27 14:18:05
【问题描述】：

我试图用 Apache Tika 解析 iWorksDoc。但是我没有得到解析的内容，而是从内容处理程序中获取一些其他输出。我使用的代码 sn-p 和我得到的输出添加在下面。

    private void parseFile(File file) {
    try{
        File file = new File("/home/user/tika/samples/budget.numbers");
        FileInputStream inputStream = new FileInputStream(file);
        ParseContext context = new ParseContext();
        BodyContentHandler bodyHandler = new BodyContentHandler(-1);
        Parser parser=new AutoDetectParser();
        parser.parse(inputStream, bodyHandler, new Metadata(), context);
        System.out.println("Contents of the file :"+bodyHandler.toString());
        }
        catch(IOException | SAXException | TikaException e){
            e.printStackTrace();
        }
}

输出：-

Contents of the file :
Index/Document.iwa
Index/ViewState.iwa
Index/CalculationEngine.iwa
Index/Tables/HeaderStorageBucket-2.iwa
Index/Tables/Tile.iwa
Index/Metadata.iwa
Metadata/Properties.plist

我能够正确使用 Detector api 检测文件类型。但是我没有从文档中获取有用的内容。请帮忙！

【问题讨论】：

标签： java lucene apache-tika text-extraction

【解决方案1】：

Tika 应该能够解析 Numbers 文档。如果您能够共享该文档，请将其发布到我们的Jira。当我查看解析器时，我们可以更稳健地处理命名空间，这可能是问题所在，但没有文档我无法判断。

【讨论】：

文档是用最新版本的 ios 制作的。这可能是个问题吗？我已经检查过旧版本的文档并且它有效。是版本兼容性问题吗？
如何稳健地处理命名空间？能举个例子吗？
看起来我们依赖于 uri 命名空间到“sf”或“sl”的文字映射，例如在我们处理 qName 时。例如，“sf:page-start”.equals(qName) ...不过，这都是 Tika 内部结构。您可以共享失败的文档吗？谢谢！
创建 jira 问题和附加文件：- issues.apache.org/jira/browse/TIKA-1966
谢谢。这需要一些工作，但这是一个非常重要的发现。