【问题标题】:Marklogic Docx type (Other than txt , json and xml) document upload and search with in fileMarklogic Docx 类型(txt、json 和 xml 除外)文件上传和文件搜索
【发布时间】:2017-05-19 11:56:59
【问题描述】:

我如何上传 MS 文档(扩展名为 .docx..xls 等)/.pdf 并使用 Java API 从这些文件中搜索单词。

我已经尝试在下面上传 docx 文件

InputStream docStream = Example.class.getClassLoader().getResourceAsStream(
            "data"+File.separator+"Resume.docx");



    GenericDocumentManager manager = client.newDocumentManager();

    DocumentMetadataHandle handleMetaData = new DocumentMetadataHandle();

    // create a handle on the content
    InputStreamHandle handle = new InputStreamHandle(docStream);

    // write the document content
    manager.write("/example/resume.docx", handleMetaData, handle);

要搜索我在下面尝试过,

GenericDocumentManager manager = client.newDocumentManager();
    StringQueryDefinition query = 
            queryMgr.newStringDefinition().withCriteria("pavan");


    DocumentPage documents = manager.search(query, 1);
    while (documents.hasNext()) {
        DocumentRecord document = documents.next();
       System.out.println("document" + document.getContent(new StringHandle()));
    }

请帮助我处理逻辑和代码。

【问题讨论】:

    标签: marklogic marklogic-8


    【解决方案1】:

    在这种情况下,您必须应用一些转换。 MarkLogic 将二进制文档存储为二进制节点(在这种情况下,二进制文档就是您所指的 - pdf、docx 等)。二进制节点当然是不可搜索的。有很多方法可以实现转化:

    我希望这些资源对您有所帮助。除此之外,您还可以参加解释这些概念的开发人员或管理员培训,在此处了解更多信息:http://www.marklogic.com/training/

    【讨论】:

    • 感谢分享。我们可以安装管道并上传文件。我能够上传 PDF,我可以看到它已被处理并生成了 XML。但是当我搜索时,它没有返回结果。对于 Document (.docx),它不处理也不进行默认转换
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2021-12-22
    • 2017-05-24
    • 2014-05-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多