【发布时间】:2017-12-03 04:36:14
【问题描述】:
我有一个多门户 dotnetnuke 安装:
domain1.com
domain2.com
domain3.com 等
服务器是 32 gigs,8 个内核。
我有一个 robots.txt 文件。当谷歌开始抓取时,我看到多个谷歌 IP 地址的 cpu 峰值达到 100% 几个小时。根据 IIS,它尝试抓取的 url 是 /lmm-product-service/elmah.axd/detail?id=af51e96f-d0cd-4598-90ad-ebe980947fa6 每次启动时都有一个新 ID。 google bot 的所有当前实例的 url 都是相同的,但在重新开始抓取时会发生变化。
该网址无效。当我尝试在浏览器中访问它时,我收到 404 错误 - 未找到。
我试图在我的 robots.txt 中禁止 /lmm-product-service/ 无济于事:
User-agent: Googlebot
Disallow: /*/ctl/ # Googlebot permits *
Disallow: /admin/
Disallow: /lmm-product-service/
实际上不仅仅是谷歌在做这件事。它也是 ahrefs,但我已经在防火墙处阻止了它们。
有什么建议吗?
【问题讨论】:
标签: dotnetnuke robots.txt