【问题标题】:Regarding crawling urls for Google search appliance关于 Google Search Appliance 的抓取网址
【发布时间】:2014-06-05 12:16:57
【问题描述】:

我们有一个要求,我们需要抓取一组特定的 URL。

例如,我们有网站 abc.com。我们需要在“needed”文件夹下抓取 abc.com/test/needed——所有与此模式匹配的 URL。但我们不想抓取 abc.com/test/ 下的其余 URL。

我想这将使用 RegEx 完成。任何人都可以在 RegEx 方面帮助我吗?

【问题讨论】:

  • 你的问题有些不清楚,你想要什么?你有一个 url 列表,你想匹配一些而不是其他?你想匹配哪些,不想匹配哪些,举个例子吧。
  • 举个例子,我有以下网址 1) www.abc.com 2)www.abc.com /xyz 3) www.abc.com/xyz/imp 4) www.abc.com/ xyz/waste 5) www.abc.com/pqr 我正在寻找一个正则表达式,它将找到具有模式“/xyz”的匹配 uls,但如果它的“xyz/imp”它应该跳过所有组合f或“/xyz”应该匹配。
  • 所以你想匹配/xyz形式但不是/xyz/imp形式的东西?
  • 我想匹配 www.abc.com/xyz/imp , www.abc.com/ , www.abc.com/pqr 但不是 www.abc.com/xyz/waste 。跨度>

标签: regex search search-engine google-search-appliance


【解决方案1】:

根据你在评论中所说的,一个匹配 /xyz 形式的东西但不匹配 /xyz/imp 形式的东西的模式:

/xyz(/[^i][^m][^p].*)?|/xyz/.{0,2}

【讨论】:

  • 谢谢。这很好,并且匹配具有 xyz .. 要求的 url 模式有点差异。我想匹配 www.abc.com/xyz/imp , www.abc.com/ , www.abc.com/pqr 但不是 www.abc.com/xyz/waste 。 ...所以简而言之,如果 url 有 /xyz/ 比它应该有 xyz/imp 或者不匹配它。如果 url 没有 /xyz/ 则也匹配那些 url。
  • 我真的不明白你在问什么。 here is a tutorial on regexes,祝你好运。
【解决方案2】:

可以添加到 GSA 的模式可以是:

abc.com/test/needed

包含:abc.com/test/needed

要考虑的是 GSA 将如何获取这些文件。如果它无法爬取到文件夹,它将找不到文档。

【讨论】:

    【解决方案3】:

    在 GSA 中,您可以制定 3 种规范。

    1. 开始抓取网址 - 这些网址告诉 GSA 从哪里开始寻找链接。
    2. 仅跟踪和抓取 URL 模式 - 这些模式会告诉 GSA 在以“开始抓取 URL”开头的那些 URL 中哪些 URL 需要被跟踪和编入索引。
    3. 请勿抓取 URL - 这些是与上述 2 种模式匹配但不应被抓取的 URL 模式规范。

    根据问题本身的规定,我认为您需要做的就是将“开始抓取”网址输入为:“abc.com/”并输入“关注并抓取” only" 规范为:"abc.com/test/needed/",假设您不需要抓取网站上的其他路径/文件夹。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2023-03-24
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2014-08-08
      相关资源
      最近更新 更多