【问题标题】:Marklogic PDF documents searchMarklogic PDF 文档搜索
【发布时间】:2016-08-02 10:49:36
【问题描述】:

我正在创建一个 MarkLogic 搜索,最终用户可以在其中搜索字符串并获取 pdf 文档结果。我创建了一个数据库,并以适当的权限上传了 PDF 格式的文件。这里的问题是我的搜索没有以 PDF 格式返回结果,而是以 XML 和 XHTML 格式返回。

有人能告诉我这里可以做些什么来让搜索只返回 pdf 文档吗?

【问题讨论】:

  • 欢迎来到 Stackoverflow!您能否详细说明您的问题,例如代码或其他东西,以便人们可以及早解决您的问题并为您提供帮助?谢谢!

标签: marklogic


【解决方案1】:

在过去的项目中,我拥有 PDF 文件和该 PDF 的单独 XML 文档(包括要下载的 PDF 的 URI)。我搜索 XML 表示并格式化结果以包含下载原始 PDF 的链接。根据 PDF 的存储位置/方式,您可能需要采取一些措施来促进从 url 提供 PDF。

【讨论】:

  • 感谢您的回答。您能否还建议如何准备包含 PDF URI 的 XML 文档。有没有预定义的命令?请指教。
  • 我认为没有任何预定义。您也许可以使用命名约定为原始文档构建 uri...让我尝试说明...
  • 您有一个名为“foo.pdf”的 pdf 文件,它被摄取到 MarkLogic 中。不知何故,您要么将其转换为 xml,要么使用 CPF 在数据库中创建 XML 文档。除了 xml(可搜索)版本之外,您需要做的是将“foo.pdf”另存为数据库中的二进制文件。该 XML 文件可能包含存储二进制文件的 uri。这需要更改xml。或者给二进制文件一个URI,如“/binary/foo.pdf”和xml“/xml/foo.xml” 这将允许您在结果uri中建立一个将“/xml/”替换为“/binary/”的链接指向下载二进制文件...
猜你喜欢
  • 1970-01-01
  • 2013-11-06
  • 1970-01-01
  • 2014-01-28
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2021-03-13
  • 1970-01-01
相关资源
最近更新 更多