【问题标题】:How to search for a sequence of words in documents in Marklogic?如何在 Marklogic 中搜索文档中的单词序列?
【发布时间】:2012-09-06 14:56:03
【问题描述】:

我在xquery 中有一个这样的单词序列(和、交易、搜索、业务)。现在我想在文档(如 pdf、doc、ppt)以及xml 文件中搜索此序列。如果任何单词在任何文档中匹配,则应返回该文档的URI。在Marklogicxquery 中执行此操作的最有效方法是什么?

【问题讨论】:

    标签: xquery marklogic


    【解决方案1】:

    听起来第一个问题是从用户提供的字符串中标记单词。这是使用cts:tokenize http://docs.marklogic.com/5.0doc/docapp.xqy#display.xqy?fname=http://pubs/5.0doc/apidoc/SearchBuiltins.xml&category=SearchBuiltins&function=cts:tokenize 的简单方法

    cts:tokenize('now is the time')[. instance of cts:word]
    

    一旦有了单词,就可以将它们与cts:word-query 构造函数和cts:search 一起使用,或者您可以扩展高级搜索API 来处理这个问题:也许使用search:resolve http://docs.marklogic.com/5.0doc/docapp.xqy#display.xqy?fname=http://pubs/5.0doc/apidoc/searchapi.xml&category=Search&function=search:resolve

    当然,任何二进制内容(pdf、doc、ppt)都需要先进行文档转换:http://docs.marklogic.com/5.0doc/docapp.xqy#display.xqy?fname=http://pubs/5.0doc/xml/search-dev-guide/binary-document-metadata.xml

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-01-04
      • 2023-03-17
      • 1970-01-01
      • 2011-08-12
      • 2017-03-30
      相关资源
      最近更新 更多