【问题标题】:Preventing site being scraped防止网站被抓取
【发布时间】:2013-04-25 19:05:23
【问题描述】:

http://www.vibrantneo.org 托管了一个wordpress 网站,目前正在克隆http://vibrantneo.123productpages.com/不知何故。非常奇怪的是,这个特定的域 (http://www.123productpages.com) 似乎对 A LOT 的内容执行此操作,但网络上没有任何投诉。

未选择加入此服务。这是在未经同意的情况下完成的。我检查了 Firebug,没有提到引用该站点的原始服务器。这是一个恶意网站吗?为什么没有讨论这种影响他人的“服务”?

* 更新 * 事实证明,这 123productpages 实际上以某种方式引用了主机上的http://www.vibrantneo.org 的实际文件。例如:将 wp-config 更改为无效凭据会导致两个站点都关闭。

可能是某种木马。关于这个域及其实践如何没有被更多公开仍然令人困惑。希望这篇文章能在我查明故障点的同时找到遇到同样问题的人。

* 更新 #2 * 所以看起来它不像我想象的那么恶意。虽然还是很不道德。看起来就像提取内容并更改对其域的所有引用一样简单。所有内容仍托管在真实服务器上。

例如:http://blah.123productpages.com 将反映 www.blah.com。当然,他们似乎必须“设置”那个特定的域。

我目前的修复方法是添加一个简单的 js sn-p 来检查伪加密域,看看它是否是正确的域,如果不是则重定向。

以下是 blah.com 的示例。 domain 只是域,blah.com 用简单的 123 分隔(当然可以生成更复杂的密钥)。

<script type="text/javascript">
    var u = top.location.toString();
    var domain = 'b123l123a123h123.123c123o123o123m'.toString();
    var domain_decrypted = domain.replace(/123/gi, '');

    if (u.indexOf(domain_decrypted) == -1) {
        top.location = 'http://' + domain_decrypted;
    }
</script>

【问题讨论】:

  • 简单的 sn-p 拯救我的一天,好主意,谢谢!

标签: wordpress web-scraping


【解决方案1】:

如果您以公开消费的方式公开内容,则可能会被抓取。您可以花时间寻找看起来像是来自抓取工具的流量,然后阻止该 IP,但这是一场乏味的猫捉老鼠游戏。

我的建议是接受这一现实,将内容放到网络上并继续前进。

【讨论】:

    【解决方案2】:

    也许您可以向 123productpages.com 发送一份传真,禁止他们复制您的内容?

    根据 whois,这是他们的联系信息:

    WhoIs 检查 123productpages.com:

    =-=-=-=

    通过以下方式注册:DomainPeople, Inc.

    域名:123productpages.com

    注册人联系人:WhoisProtector Inc. WhoisProtector 123productpages.com () 传真:100 N Riverside, Suite 800 Chicago, IL 60606 US

    管理联系人:WhoisProtector Inc. WhoisProtector 123productpages.com (123productpages.com@WhoisProtector.com)
    +1.3129947654 传真:100 N Riverside, Suite 800 Chicago, IL 60606 US

    技术联系人:WhoisProtector Inc. WhoisProtector 123productpages.com (123productpages.com@WhoisProtector.com)
    +1.3129947654 传真:100 N Riverside, Suite 800 Chicago, IL 60606 US

    状态:锁定

    名称服务器:ns1.publishergateway.net ns2.publishergateway.net 创建日期:2009-06-28 18:47:26 截止日期:2013-06-28 18:47:00

    【讨论】:

    • 我希望通过 WHOIS 给某人一个耳朵,但它似乎被 WhoisProtector 阻止了。
    猜你喜欢
    • 1970-01-01
    • 2019-03-05
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2023-01-09
    • 2020-07-28
    • 2013-12-22
    • 1970-01-01
    相关资源
    最近更新 更多