【问题标题】:Robots.txt Disallow methodRobots.txt 禁止方法
【发布时间】:2013-10-21 05:31:08
【问题描述】:

我浏览了不同的论坛,想知道这是否正确。我试图禁止机器人仅在特定子页面(例如 www.website.com/subpage/?query=sample)中抓取查询。我正在尝试确保 /subpage/ 也不会被禁止。如果我错了,请纠正我。

文件:robots.txt

User-agent: *
Disallow: /subpage/*?

【问题讨论】:

  • 您可以随时下载相应的add-onextension 以在您自己的浏览器中舒适地测试这些内容。
  • @MisterMelancholy 感谢您的评论 :) 但是,我只是想知道“禁止:...”行是否有效。基本上我只是不希望机器人在“子页面”下抓取查询。

标签: html robot


【解决方案1】:

根据我看到的here,你很接近

User-agent: *
Disallow: /subpage/*?*
Allow: /subpage$

您可以使用适当的add-onextension 在您自己的浏览器中舒适地进行测试。

【讨论】:

  • 嗯.. 我不想禁止 /subpage/ 本身。因为我有/子页面/其中有一盒选项,所以选择一个选项时,它将制作URL:/ subpage /?选项= 1。而且我不希望谷歌抓取查询选项。
  • 只是语法旁边的注释,如果 /subpage/ 中的页面从任何地方链接,它将被抓取和索引。将出现在 SERP 中(带有通知而不是从页面中获取的内容摘要)。以yoast ceased to disallow any supages but one 为例
【解决方案2】:

我认为您不能在Disallow 中指定查询字符串。您为Disallow 设置的值在文档中被引用为Directory(而不是URIURL)。

不过,您可以使用Sitemap.xml 来实现您的目标。您可以从站点地图中排除您不想编入索引的URL

Google Webmaster tools 还对查询字符串参数的解释方式进行了一定程度的精细控制。不确定这是否符合您的目的

【讨论】:

    猜你喜欢
    • 2016-09-13
    • 1970-01-01
    • 2011-04-07
    • 2023-04-03
    • 2016-08-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多