针对爬虫和机器人的 HTML 5 存储答案

【问题标题】：HTML 5 Storage against Crawler and Bots针对爬虫和机器人的 HTML 5 存储
【发布时间】：2018-01-10 20:52:57
【问题描述】：

我目前正在编写一个视图/访问者计数器，用于检查访问者是人类还是机器人/爬虫。我已经找到了一些我使用的解决方案。其中之一是 cookie（使用 Javascript 设置），但有些机器人已经允许设置 cookie，而有些人则不允许。：/

现在我质疑在 HTML 5 存储中设置某些内容是否更有效。机器人支持 HTML 5 存储技术作为 cookie 的可能性更大，或者？是否可以在任何（人类）浏览器上禁用 HTML 5 存储？我还没有找到任何选项。

谢谢，山姆。

PS.：我已经知道/在我的脚本中使用的一些有用/信息丰富的东西：

【问题讨论】：

【解决方案1】：

我使用这个工具通过 Google-bot 渲染页面，结果是 Google-bot 支持 HTML 5 Storage：

这段代码使用这段代码来检测：

/* Detect browser can use web storage */
if (!typeof(Storage) !== 'undefined') {
  $('#yay').fadeIn('slow');
} else {
  $('#ooh').fadeIn('slow');
}

渲染结果：

【讨论】：

【解决方案2】：

爬虫通常不执行 Javascript。所以可以用JS监控访问。您还可以过滤掉机器人的用户代理。

这是我在爬虫用户代理中找到的第一个列表。

【讨论】：