【问题标题】:How to know if HTTP Request is a BOT如何知道 HTTP 请求是否是 BOT
【发布时间】:2011-01-19 10:37:32
【问题描述】:

我正在寻找 BOTS 用户代理的完整列表(爬虫、蜘蛛、推特机器人等)。

你知道吗?

谢谢

【问题讨论】:

标签: seo user-agent web-crawler


【解决方案1】:

查看此列表: http://www.botsvsbrowsers.com/category/1/index.html

它总共包含 4768 个机器人用户代理。

完成机器人检测的另一种方法是以白名单的方式使用反向方法,即检查用户代理是否不是机器人,然后其他任何东西都是机器人。 :-)

要编制完整的非机器人用户代理列表,您可以使用http://www.user-agents.org/http://www.botsvsbrowsers.com/ 的列表。

【讨论】:

  • 不幸的是,这些链接似乎不再起作用了
【解决方案2】:

长话短说:你不能,没有灵丹妙药。任何机器人都可以将其user-agent 字符串设置为从“googlebot”到“spamalot”的任何内容。

您可以自己查看,您需要做的就是转到 Shinnok 指出的第一个站点,然后开始计算其中列出的所有 Googlebot/2.X 机器人。您阻止他们,他们将机器人的名称更改为随机乱码等等。最后,您将得到一个 10k 机器人列表,当您尝试验证他们是否是机器人时,这将减少您的用户加载时间。

【讨论】:

    猜你喜欢
    • 2017-06-16
    • 2011-08-23
    • 2012-05-08
    • 2014-05-06
    • 2011-04-21
    • 2013-05-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多