【问题标题】:How to crawl/index the links on a single page: Google Search Appliance如何抓取/索引单个页面上的链接:Google Search Appliance
【发布时间】:2015-04-29 05:05:40
【问题描述】:

我是 GSA 的新手,也没有对系统的完全管理员访问权限,因此必须将请求转发到 ICT 服务,以对我们的抓取和收集进行更改。

我希望有人可以帮助解决这个问题:

我有一个网页,其中包含指向大约 180 个文档的链接列表(其中大部分存储在同一子目录 /docs/ 中,其中包含大约 2400 个文档)。其余的分散在站点的许多其他子目录中,例如 /finance/、/hr/ 等

目前所发生的一切是我要么将单个网页编入索引,而 180 个链接都没有。或者我在 /docs/ 子目录中获得 1 页以及 2400 个文档中的所有文档。

我希望能够仅抓取/索引此页面和 180 个链接并创建一个单独的集合

有没有简单的方法来做到这一点?

问候 亨利

【问题讨论】:

    标签: google-search-appliance


    【解决方案1】:

    另一种可能的解决方案是使用 robots.txt 文件来禁止抓取您不想要的其他页面。如果您必须枚举所有这些,这将是很多工作。

    最好的办法是看看是否有一些通用的 URL 模式可以用来指定你想要的 180 个页面。例如,您确实需要所有 PDF 的页面,而您不想要的其他文件都是其他类型的吗?如果您可以找到所有您想要的页面共有的东西,而其他页面却不是这样,您可以使用它来制定一个模式(可能使用正则表达式)来做您想做的事情。

    【讨论】:

      【解决方案2】:
      1. 不是在启动 URL 和跟随模式下配置 URL 模式, 配置完整的url。获取 180 个 url + 1 个单个网页 url 并将所有 181 个 url 放在 start url 下并遵循模式。通过配置完整的 url,我们可以避免 GSA 爬取应用程序中的其他 url,因为我们没有保留任何常见的 url 模式在 follow网址。
      2. 创建一个新集合并放置所有 180 个文档 url + 单个网页 该集合中的“包含与以下模式匹配的内容”下的 url(或匹配 181 个 url 的通用模式)。

      我假设您不想索引 GSA 上的其他 2400 个文档。 希望对您有所帮助。

      问候,

      莫汉。

      【讨论】:

        【解决方案3】:

        您最好为此使用元和网址供稿。

        它将允许您控制 GSA 是否跟踪您的 180 个页面中的链接(如果您输入它们),或者如果您只是输入这些链接,是否将您的列表页面编入索引。您可以通过指定 noindex 或 nofollow 来执行此操作。

        您仍然需要正确设置您的关注和抓取模式和集合,但这是控制索引内容的最简单方法。

        您也不一定需要为此编写代码,您可以使用 curl 并手工制作 xml。

        文档非常好,易于理解。 Feeds Protocol Developers Guide

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 2011-01-14
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          相关资源
          最近更新 更多