如何抓取/索引单个页面上的链接：Google Search Appliance答案

【问题标题】：How to crawl/index the links on a single page: Google Search Appliance如何抓取/索引单个页面上的链接：Google Search Appliance
【发布时间】：2015-04-29 05:05:40
【问题描述】：

我是 GSA 的新手，也没有对系统的完全管理员访问权限，因此必须将请求转发到 ICT 服务，以对我们的抓取和收集进行更改。

我希望有人可以帮助解决这个问题：

我有一个网页，其中包含指向大约 180 个文档的链接列表（其中大部分存储在同一子目录 /docs/ 中，其中包含大约 2400 个文档）。其余的分散在站点的许多其他子目录中，例如 /finance/、/hr/ 等

目前所发生的一切是我要么将单个网页编入索引，而 180 个链接都没有。或者我在 /docs/ 子目录中获得 1 页以及 2400 个文档中的所有文档。

我希望能够仅抓取/索引此页面和 180 个链接并创建一个单独的集合

有没有简单的方法来做到这一点？

问候亨利

【问题讨论】：

标签： google-search-appliance

【解决方案1】：

另一种可能的解决方案是使用 robots.txt 文件来禁止抓取您不想要的其他页面。如果您必须枚举所有这些，这将是很多工作。

最好的办法是看看是否有一些通用的 URL 模式可以用来指定你想要的 180 个页面。例如，您确实需要所有 PDF 的页面，而您不想要的其他文件都是其他类型的吗？如果您可以找到所有您想要的页面共有的东西，而其他页面却不是这样，您可以使用它来制定一个模式（可能使用正则表达式）来做您想做的事情。

【讨论】：

【解决方案2】：

不是在启动 URL 和跟随模式下配置 URL 模式，配置完整的url。获取 180 个 url + 1 个单个网页 url 并将所有 181 个 url 放在 start url 下并遵循模式。通过配置完整的 url，我们可以避免 GSA 爬取应用程序中的其他 url，因为我们没有保留任何常见的 url 模式在 follow网址。
创建一个新集合并放置所有 180 个文档 url + 单个网页该集合中的“包含与以下模式匹配的内容”下的 url（或匹配 181 个 url 的通用模式）。

我假设您不想索引 GSA 上的其他 2400 个文档。希望对您有所帮助。

问候，

莫汉。

【讨论】：

【解决方案3】：

您最好为此使用元和网址供稿。

它将允许您控制 GSA 是否跟踪您的 180 个页面中的链接（如果您输入它们），或者如果您只是输入这些链接，是否将您的列表页面编入索引。您可以通过指定 noindex 或 nofollow 来执行此操作。

您仍然需要正确设置您的关注和抓取模式和集合，但这是控制索引内容的最简单方法。

您也不一定需要为此编写代码，您可以使用 curl 并手工制作 xml。

文档非常好，易于理解。 Feeds Protocol Developers Guide

【讨论】：