【发布时间】:2014-04-15 13:07:11
【问题描述】:
我有一个 Windows 客户端应用程序,它使用托管在共享商业网络服务器中的 php 页面。
在这个 php 页面中,我返回了一个加密的 json。同样在这个页面中,我有一段代码来跟踪哪些 IP 正在访问这个 php 页面,我注意到有一个 spyder/Nutch-2 爬虫在访问这个页面。
我在想,爬虫怎么可能找到未在任何搜索引擎中发布的页面。我有办法阻止爬虫访问此特定页面吗?
要我用.htaccess文件来配置吗?
【问题讨论】:
-
只是禁止IP。可以在 apache 中完成,但首选 iptables 或防火墙
-
@user574632 — 您如何使用 iptables 禁止蜘蛛访问该特定 URL(这需要检查 HTTP 请求)?
-
我以为他的意思是完全禁止它
-
您可以在 .htaccess 文件中阻止爬虫 ip 或基于名称的定义。但是,爬虫代理名称或 IP 地址可以不时更改。请参阅我的答案以获取更多详细信息
标签: php apache .htaccess web-crawler nutch