【问题标题】:Submitted URL blocked by robots.txt提交的 URL 被 robots.txt 阻止
【发布时间】:2019-05-13 13:13:18
【问题描述】:

在过去几周内,Google 一直在 Search Console 中报告错误。越来越多的页面不允许抓取 - 覆盖率报告说: 提交的 URL 被 robots.txt 阻止。

如你所见,我的 robots.txt 非常简单,为什么大约 20% 的页面会出现此错误,我很迷茫……

User-agent: *
Disallow: /cgi-bin/
Allow: /
Sitemap: https://www.theartstory.org/sitemapindex.xml
Host: https://www.theartstory.org

显示错误的示例页面:

https://www.theartstory.org/movement-fauvism-artworks.htm

https://www.theartstory.org/artist-hassam-childe-life-and-legacy.htm

【问题讨论】:

  • 您是否更改了页面位置?

标签: web-crawler seo robots.txt


【解决方案1】:

您的 robots.txt 文件配置不正确。你应该只需要:

User-agent: *
Crawl-delay: 40
Disallow: /cgi-bin/

Sitemap: https://www.theartstory.org/sitemapindex.xml

为您的 robots.txt 提交该文件并再次尝试抓取。

【讨论】:

    猜你喜欢
    • 2014-04-27
    • 2022-06-11
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-02-03
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多