【问题标题】:Is there a programmatically way to force a crawler to not index specific images?是否有以编程方式强制爬虫不索引特定图像的方法?
【发布时间】:2026-02-18 08:30:01
【问题描述】:

我想阻止抓取工具将我网站上的特定图片编入索引,但前提是它们早于特定日期。但是,爬虫不会停止对当前链接图片的页面进行索引。

我最初的方法是编写一个脚本,将图像的 URL 添加到“robots.txt”中,但我认为文件会变得很大,因为我们讨论了非常大量的潜在图像。

我的下一个想法是使用<meta name="robots" content="noimageindex"> 标签,但我认为这种方法容易出错,因为我可能忘记将此标签添加到我可能希望阻止爬虫索引图像的模板中。这也是多余的,爬虫会忽略所有图像。

我的问题是:如果条件(在我的情况下是日期)为真,您是否知道以编程方式强制爬虫不索引图像?还是我唯一的可能阻止爬虫索引整个页面?

【问题讨论】:

    标签: python html django seo


    【解决方案1】:

    根据您的想法,您可以创建一个单独的位置来保存您不希望被索引的图像,编写一个脚本以在文件“过期”后将文件移动到该位置只需将 url 添加到 robots.txt 文件中。也许像/expired_images*

    【讨论】:

    • 请注意,根据谷歌本身,它不会阻止以其他方式(通过链接等)发现的图像被编入索引,参见 productforums.google.com/forum/#!topic/webmasters/23CdzZ5Z8Bc
    • 从同一个链接,最好的解决方案是使用您的前端服务器(Apache、Nginx 等)为这些图像添加一个X-Robots-Tag "noindex" 标头。
    • 我没有想到明显的解决方案。谢谢,我会进一步调查。
    最近更新 更多