robots.txt 是告诉搜索引擎索引什么和不索引什么的标准方式(不仅适用于 Jekyll,也适用于一般网站)。
只需在 Jekyll 站点的根目录中创建一个名为 robots.txt 的文件,其中包含不应编入索引的路径。
例如
User-agent: *
Disallow: /2017/02/11/post-that-should-not-be-indexed/
Disallow: /page-that-should-not-be-indexed/
Allow: /
Jekyll 会自动将robots.txt 复制到生成站点的文件夹中。
您还可以测试您的 robots.txt 以确保它按您期望的方式工作:https://support.google.com/webmasters/answer/6062598?hl=en
2021-08-02 更新 - Google 特定设置:
您可以通过在页面的 HTML 代码中包含 noindex 元标记或在 HTTP 响应中返回 noindex 标头来阻止页面出现在 Google 搜索中
有两种方法可以实现noindex:作为元标记和作为 HTTP 响应标头。它们具有相同的效果;选择对您的网站更方便的方法。
<meta>标签
为防止大多数搜索引擎网络爬虫将您网站上的网页编入索引,请将以下元标记放入您网页的 <head> 部分:
<meta name="robots" content="noindex">
要防止只有 Google 网络爬虫将页面编入索引:
<meta name="googlebot" content="noindex">
HTTP 响应标头
除了元标记,您还可以在响应中返回值为noindex 或none 的X-Robots-Tag 标头。下面是一个带有 X-Robots-Tag 指示爬虫不要索引页面的 HTTP 响应示例:
HTTP/1.1 200 OK
(...)
X-Robots-Tag: noindex
(...)
更多详情:https://developers.google.com/search/docs/advanced/crawling/block-indexing