【问题标题】:How to prevent crawlers from following links?如何防止爬虫跟踪链接?
【发布时间】:2011-06-26 06:06:20
【问题描述】:

我正在建立一个允许卖家:

  • 在我的网站上列出他们的产品
  • 将每个产品链接返回到卖家的网站
  • 为每个点击的链接收费

我现在需要做的是以某种方式确保我只在链接到卖家网站的链接后记录实际的人类用户。如果是爬取网站的机器人,我不应该为此向卖家收费。

有没有办法让我告诉机器人不要关注某个链接?我不认为是nofollow,因为这不是为了阻止对内容的访问。

【问题讨论】:

  • 没有。任何机器人。我不想人为地增加点击链接的数量。

标签: html seo bots googlebot


【解决方案1】:

告诉机器人不要跟随链接的方法就是将 rel=nofollow 添加到您的 标记中。 假设您在转发到外部 url 之前也在本地登录,您还可以检查用户代理字符串。

事实上,如果您要要求人们根据推荐次数付费,那么最好针对每次付费点击记录 IP 地址和用户代理,以防您的统计数据受到质疑。

【讨论】:

  • 我正在记录 IP 地址。关于用户代理的好主意。
【解决方案2】:

您只需添加一个 [robots.txt] 文件,例如喜欢this one

您可以在网上找到有关 [robots.txt] 文件的更多信息,例如in Wikipedia.

干杯,

【讨论】:

  • robots.txt中可以使用通配符吗?
  • 上面链接的 Google robots.txt 文件说明您可以为用户代理使用通配符。但由于 robots.txt 主要是关于限制对整个目录树的访问,因此对通配符的需求较少,我不确定你是否可以。有关详细信息,请参阅我链接到的 Wikipedia 文章。
  • 应该注意的是,对于使用搜索控制台的任何人来说,只有使用 robots.txt 才会出现 google 搜索控制台覆盖率问题。
【解决方案3】:

通常您可以通过用户代理字符串来识别它们。你可以在这里找到一个列表,不能说它是完美的,但它是一个很好的扩展基础:PHP/MySQL - an array filter for bots

Robots.txt 是另一种方式,more about it here

【讨论】:

    猜你喜欢
    • 2013-02-07
    • 1970-01-01
    • 1970-01-01
    • 2021-10-09
    • 1970-01-01
    • 2013-11-30
    • 2010-11-02
    • 2010-11-10
    • 1970-01-01
    相关资源
    最近更新 更多