将 LucidWorks 包含路径配置为仅抓取某些文件类型答案

【问题标题】：Configuring LucidWorks Include Paths to only crawl certain file types将 LucidWorks 包含路径配置为仅抓取某些文件类型
【发布时间】：2012-10-02 13:26:15
【问题描述】：

我正在尝试将 LucidWorks Web 数据源配置为仅索引某些文件类型。但是，当我将 Include paths 设置为 .*\.html 以仅抓取 .html 文件（作为简化示例）时，它最终只会索引顶级文件夹。 抓取深度设置为-1，当我将包含路径留空时，它会按预期抓取整个子树。

我查看了creating a web data source 和Using Regular Expressions 的文档，但找不到.*\.html 不起作用的原因，因为.* 应该匹配任何字符。

【问题讨论】：

标签： regex web-crawler lucidworks

【解决方案1】：

在校对问题时，我想到了正确的解决方案。在这里发布以供后代使用。

被抓取的内容是一个文件共享，因此它依赖于网络服务器的目录列表，该目录列表被过滤掉了，因为它没有 .html 扩展名。因此，只需将.*/ 添加到包含路径即可解决问题。

【讨论】：