不希望抓取包含的文件内容

【问题标题】：Don't want included file content crawled不希望抓取包含的文件内容
【发布时间】：2014-04-30 18:28:49
【问题描述】：

我有一个包含页脚 html 文件的 html 文件。问题是，页脚包含一堆我不想抓取的信用和版权信息——它使我的关键字密度下降。我已经“禁止”了 robots.txt 文件中的页脚文件，并在头部放置了一个标签。

这是否足以防止该部分内容被抓取？我读过一个 iFrame 技巧，如果我所做的还不够，我可能会尝试。

天哪，你会认为有一个更简单的方法来排除块......

TIA。

【问题讨论】：

【解决方案1】：

尝试使用 robots.txt。

要禁止所有页面使用：

User-agent: *
Disallow: /

要禁止您的某些页面，请使用：

User-agent: *
Disallow: /test/
Disallow: /donotcrawl.html

您不能只“禁止”网页的一部分（即：页眉、页脚...）。要么全无，要么全无。

我不会使用 iframe 来解决这个问题。如果您使用的是 PHP，您可以使用 robots.txt 和 include() 仅包含您想要的内容，例如页脚、页眉或导航菜单。

【讨论】：