【问题标题】:How can I block mp3 crawlers from my website under Apache?如何在 Apache 下阻止来自我网站的 mp3 爬虫?
【发布时间】:2010-09-10 00:32:02
【问题描述】:

是否有某种方法可以使用 .htaccess 文件或类似文件来阻止来自引用者的访问?我的带宽被http://www.dizzler.com 推荐的人占用了,这是一个基于 Flash 的网站,允许您浏览抓取的公开可用 mp3 库。

编辑: Dizzler 仍在进入(可能并非在所有情况下都指示引荐来源)所以我将所有 mp3 移动到新文件夹,禁用目录浏览,并创建了 robots.txt文件以(希望)防止它再次被索引。接受的答案已更改以反映我之前尝试的徒劳:P

【问题讨论】:

  • 显然,只要 Flash 应用程序报告引用者,它就会起作用,但如果它让我眼花缭乱,这就是我现在担心的全部。

标签: apache bandwidth


【解决方案1】:

这就像说您想阻止垃圾邮件机器人在您公开可见的页面上收集电子邮件 - 很难在不强制查看者登录以确认其身份的情况下区分用户和机器人。

您可以使用 robots.txt 来禁止实际上遵循这些规则的蜘蛛,但这是在他们这边,而不是在您的服务器那边。有一个页面解释了如何抓住那些违反规则并明确禁止它们的人:Using Apache to stop bad robots [evolt.org]

如果您想要一种简单的方法来停止 Dizzler,尤其是使用 .htaccess,您应该能够将其弹出并添加:

<Directory /directoryName/subDirectory>
Order Allow,Deny
Allow from all
Deny from 66.232.150.219
</Directory>

【讨论】:

  • 我认为它值得一试..会报告它是否有帮助。
【解决方案2】:

来自this site:(将其放入您的.htaccess 文件中)

RewriteEngine on
RewriteCond %{HTTP_REFERER} ^http://((www\.)?dizzler\.com [NC]
RewriteRule .* - [F]

【讨论】:

  • 当我使用它并尝试自己访问该文件夹时,我收到 500 内部服务器错误。
【解决方案3】:

你可以使用类似的东西

SetEnvIfNoCase Referer dizzler.com spammer=yes

Order allow,deny
allow from all
deny from env=spammer

来源:http://codex.wordpress.org/Combating_Comment_Spam/Denying_Access

【讨论】:

    【解决方案4】:

    这不是一个非常优雅的解决方案,但您可以阻止网站的爬虫机器人,然后重命名您的 mp3 文件以破坏网站上已有的链接。

    【讨论】:

      猜你喜欢
      • 2016-01-25
      • 1970-01-01
      • 1970-01-01
      • 2016-10-28
      • 2015-07-30
      • 1970-01-01
      • 2010-09-18
      • 1970-01-01
      • 2018-06-06
      相关资源
      最近更新 更多