Marklogic PDF 文档搜索答案

【问题标题】：Marklogic PDF documents searchMarklogic PDF 文档搜索
【发布时间】：2016-08-02 10:49:36
【问题描述】：

我正在创建一个 MarkLogic 搜索，最终用户可以在其中搜索字符串并获取 pdf 文档结果。我创建了一个数据库，并以适当的权限上传了 PDF 格式的文件。这里的问题是我的搜索没有以 PDF 格式返回结果，而是以 XML 和 XHTML 格式返回。

有人能告诉我这里可以做些什么来让搜索只返回 pdf 文档吗？

【问题讨论】：

标签： marklogic

【解决方案1】：

在过去的项目中，我拥有 PDF 文件和该 PDF 的单独 XML 文档（包括要下载的 PDF 的 URI）。我搜索 XML 表示并格式化结果以包含下载原始 PDF 的链接。根据 PDF 的存储位置/方式，您可能需要采取一些措施来促进从 url 提供 PDF。

【讨论】：

感谢您的回答。您能否还建议如何准备包含 PDF URI 的 XML 文档。有没有预定义的命令？请指教。
我认为没有任何预定义。您也许可以使用命名约定为原始文档构建 uri...让我尝试说明...
您有一个名为“foo.pdf”的 pdf 文件，它被摄取到 MarkLogic 中。不知何故，您要么将其转换为 xml，要么使用 CPF 在数据库中创建 XML 文档。除了 xml（可搜索）版本之外，您需要做的是将“foo.pdf”另存为数据库中的二进制文件。该 XML 文件可能包含存储二进制文件的 uri。这需要更改xml。或者给二进制文件一个URI，如“/binary/foo.pdf”和xml“/xml/foo.xml” 这将允许您在结果uri中建立一个将“/xml/”替换为“/binary/”的链接指向下载二进制文件...