【发布时间】:2021-06-04 08:22:13
【问题描述】:
我们正在尝试使用xdmp:document-filter 函数来提取有关 PDF 文件的元数据,特别是我们想知道 PDF 中的页数。似乎目前 MarkLogic 无法检索 PDF(或 Word 文档)的此信息,但能够获取 PowerPoint 的幻灯片数量。也许有一个隐藏的选项?
https://docs.marklogic.com/guide/search-dev/binary-document-metadata#id_98155 https://docs.marklogic.com/xdmp:document-filter
在某些阶段,我们可能还希望从音频文件 (MP3) 中提取元数据,例如以秒为单位的持续时间和立体声/单声道。这有可能吗?
【问题讨论】:
-
恐怕您可能需要更专业的工具(例如 PDFBox for PDF)来进行更精细的元数据提取。
-
如果当前提取器中缺少有用的功能,您应该联系 MarkLogic 支持和/或您的销售客户主管并告知他们,并提交增强请求。同时,Apache TIKA tika.apache.org 等外部工具可能是您的最佳选择。
-
是的,这仍然是一个选项,我们已经考虑过了。现在,我们将按照@davidennis 的建议继续使用转换功能。您的建议要轻松得多,但我们需要集成第三方工具。在我们的情况下,我们发现使用 MarkLogic 的内置功能有一点优势。
标签: marklogic