【问题标题】:Configuring LucidWorks Include Paths to only crawl certain file types将 LucidWorks 包含路径配置为仅抓取某些文件类型
【发布时间】:2012-10-02 13:26:15
【问题描述】:

我正在尝试将 LucidWorks Web 数据源配置为仅索引某些文件类型。但是,当我将 Include paths 设置为 .*\.html 以仅抓取 .html 文件(作为简化示例)时,它最终只会索引顶级文件夹。 抓取深度设置为-1,当我将包含路径留空时,它会按预期抓取整个子树。

我查看了creating a web data sourceUsing Regular Expressions 的文档,但找不到.*\.html 不起作用的原因,因为.* 应该匹配任何字符。

【问题讨论】:

    标签: regex web-crawler lucidworks


    【解决方案1】:

    在校对问题时,我想到了正确的解决方案。在这里发布以供后代使用。


    被抓取的内容是一个文件共享,因此它依赖于网络服务器的目录列表,该目录列表被过滤掉了,因为它没有 .html 扩展名。因此,只需将.*/ 添加到包含路径即可解决问题。

    【讨论】:

      猜你喜欢
      • 2012-12-15
      • 2019-05-07
      • 2014-05-12
      • 2012-06-22
      • 1970-01-01
      • 2019-04-21
      • 2018-11-22
      • 2023-03-11
      • 1970-01-01
      相关资源
      最近更新 更多