关于 Google Search Appliance 的抓取网址答案

【问题标题】：Regarding crawling urls for Google search appliance关于 Google Search Appliance 的抓取网址
【发布时间】：2014-06-05 12:16:57
【问题描述】：

我们有一个要求，我们需要抓取一组特定的 URL。

例如，我们有网站 abc.com。我们需要在“needed”文件夹下抓取 abc.com/test/needed——所有与此模式匹配的 URL。但我们不想抓取 abc.com/test/ 下的其余 URL。

我想这将使用 RegEx 完成。任何人都可以在 RegEx 方面帮助我吗？

【问题讨论】：

你的问题有些不清楚，你想要什么？你有一个 url 列表，你想匹配一些而不是其他？你想匹配哪些，不想匹配哪些，举个例子吧。
举个例子，我有以下网址 1) www.abc.com 2)www.abc.com /xyz 3) www.abc.com/xyz/imp 4) www.abc.com/ xyz/waste 5) www.abc.com/pqr 我正在寻找一个正则表达式，它将找到具有模式“/xyz”的匹配 uls，但如果它的“xyz/imp”它应该跳过所有组合f或“/xyz”应该匹配。
所以你想匹配/xyz形式但不是/xyz/imp形式的东西？
我想匹配 www.abc.com/xyz/imp , www.abc.com/ , www.abc.com/pqr 但不是 www.abc.com/xyz/waste 。跨度>

【解决方案1】：

根据你在评论中所说的，一个匹配 /xyz 形式的东西但不匹配 /xyz/imp 形式的东西的模式：

/xyz(/[^i][^m][^p].*)?|/xyz/.{0,2}

【讨论】：

谢谢。这很好，并且匹配具有 xyz .. 要求的 url 模式有点差异。我想匹配 www.abc.com/xyz/imp ， www.abc.com/ ， www.abc.com/pqr 但不是 www.abc.com/xyz/waste 。 ...所以简而言之，如果 url 有 /xyz/ 比它应该有 xyz/imp 或者不匹配它。如果 url 没有 /xyz/ 则也匹配那些 url。
我真的不明白你在问什么。 here is a tutorial on regexes，祝你好运。

【解决方案2】：

可以添加到 GSA 的模式可以是：

abc.com/test/needed

或

包含：abc.com/test/needed

要考虑的是 GSA 将如何获取这些文件。如果它无法爬取到文件夹，它将找不到文档。

【讨论】：

【解决方案3】：

在 GSA 中，您可以制定 3 种规范。

根据问题本身的规定，我认为您需要做的就是将“开始抓取”网址输入为：“abc.com/”并输入“关注并抓取” only" 规范为："abc.com/test/needed/"，假设您不需要抓取网站上的其他路径/文件夹。

【讨论】：