【发布时间】:2012-10-02 13:26:15
【问题描述】:
我正在尝试将 LucidWorks Web 数据源配置为仅索引某些文件类型。但是,当我将 Include paths 设置为 .*\.html 以仅抓取 .html 文件(作为简化示例)时,它最终只会索引顶级文件夹。 抓取深度设置为-1,当我将包含路径留空时,它会按预期抓取整个子树。
我查看了creating a web data source 和Using Regular Expressions 的文档,但找不到.*\.html 不起作用的原因,因为.* 应该匹配任何字符。
【问题讨论】:
标签: regex web-crawler lucidworks