【问题标题】:Issue in parsing iWorksDocument with Apache Tika使用 Apache Tika 解析 iWorksDocument 的问题
【发布时间】:2016-04-27 14:18:05
【问题描述】:

我试图用 Apache Tika 解析 iWorksDoc。但是我没有得到解析的内容,而是从内容处理程序中获取一些其他输出。 我使用的代码 sn-p 和我得到的输出添加在下面。

    private void parseFile(File file) {
    try{
        File file = new File("/home/user/tika/samples/budget.numbers");
        FileInputStream inputStream = new FileInputStream(file);
        ParseContext context = new ParseContext();
        BodyContentHandler bodyHandler = new BodyContentHandler(-1);
        Parser parser=new AutoDetectParser();
        parser.parse(inputStream, bodyHandler, new Metadata(), context);
        System.out.println("Contents of the file :"+bodyHandler.toString());
        }
        catch(IOException | SAXException | TikaException e){
            e.printStackTrace();
        }
}

输出:-

Contents of the file :
Index/Document.iwa
Index/ViewState.iwa
Index/CalculationEngine.iwa
Index/Tables/HeaderStorageBucket-2.iwa
Index/Tables/Tile.iwa
Index/Metadata.iwa
Metadata/Properties.plist

我能够正确使用 Detector api 检测文件类型。但是我没有从文档中获取有用的内容。请帮忙!

【问题讨论】:

    标签: java lucene apache-tika text-extraction


    【解决方案1】:

    Tika 应该能够解析 Numbers 文档。如果您能够共享该文档,请将其发布到我们的Jira。当我查看解析器时,我们可以更稳健地处理命名空间,这可能是问题所在,但没有文档我无法判断。

    【讨论】:

    • 文档是用最新版本的 ios 制作的。这可能是个问题吗?我已经检查过旧版本的文档并且它有效。是版本兼容性问题吗?
    • 如何稳健地处理命名空间?能举个例子吗?
    • 看起来我们依赖于 uri 命名空间到“sf”或“sl”的文字映射,例如在我们处理 qName 时。例如,“sf:page-start”.equals(qName) ...不过,这都是 Tika 内部结构。您可以共享失败的文档吗?谢谢!
    • 创建 jira 问题和附加文件:- issues.apache.org/jira/browse/TIKA-1966
    • 谢谢。这需要一些工作,但这是一个非常重要的发现。
    猜你喜欢
    • 1970-01-01
    • 2012-04-27
    • 2017-09-09
    • 1970-01-01
    • 1970-01-01
    • 2015-07-16
    • 1970-01-01
    • 2019-04-05
    • 2017-05-07
    相关资源
    最近更新 更多