【问题标题】:Don't want included file content crawled不希望抓取包含的文件内容
【发布时间】:2014-04-30 18:28:49
【问题描述】:

我有一个包含页脚 html 文件的 html 文件。问题是,页脚包含一堆我不想抓取的信用和版权信息——它使我的关键字密度下降。我已经“禁止”了 robots.txt 文件中的页脚文件,并在头部放置了一个标签。

这是否足以防止该部分内容被抓取?我读过一个 iFrame 技巧,如果我所做的还不够,我可能会尝试。

天哪,你会认为有一个更简单的方法来排除块......

TIA。

【问题讨论】:

    标签: html seo robots.txt


    【解决方案1】:

    尝试使用 robots.txt。

    要禁止所有页面使用:

    User-agent: *
    Disallow: /
    

    要禁止您的某些页面,请使用:

    User-agent: *
    Disallow: /test/
    Disallow: /donotcrawl.html
    

    您不能只“禁止”网页的一部分(即:页眉、页脚...)。要么全无,要么全无。

    我不会使用 iframe 来解决这个问题。如果您使用的是 PHP,您可以使用 robots.txt 和 include() 仅包含您想要的内容,例如页脚、页眉或导航菜单。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2011-11-30
      • 1970-01-01
      • 2021-01-06
      • 2017-03-09
      • 1970-01-01
      • 2022-01-09
      • 2021-11-14
      • 1970-01-01
      相关资源
      最近更新 更多