【问题标题】:HTML 5 Storage against Crawler and Bots针对爬虫和机器人的 HTML 5 存储
【发布时间】:2018-01-10 20:52:57
【问题描述】:

我目前正在编写一个视图/访问者计数器,用于检查访问者是人类还是机器人/爬虫。我已经找到了一些我使用的解决方案。其中之一是 cookie(使用 Javascript 设置),但有些机器人已经允许设置 cookie,而有些人则不允许。 :/

现在我质疑在 HTML 5 存储中设置某些内容是否更有效。机器人支持 HTML 5 存储技术作为 cookie 的可能性更大,或者?是否可以在任何(人类)浏览器上禁用 HTML 5 存储?我还没有找到任何选项。

谢谢, 山姆。

PS.:我已经知道/在我的脚本中使用的一些有用/信息丰富的东西:

【问题讨论】:

    标签: javascript php html local-storage


    【解决方案1】:

    我使用这个工具通过 Google-bot 渲染页面,结果是 Google-bot 支持 HTML 5 Storage

    测试存储支持的代码:https://codepen.io/gab/pen/AxFoB

    这段代码使用这段代码来检测:

    /* Detect browser can use web storage */
    if (!typeof(Storage) !== 'undefined') {
      $('#yay').fadeIn('slow');
    } else {
      $('#ooh').fadeIn('slow');
    }
    

    获取和渲染为机器人的工具: https://technicalseo.com/seo-tools/fetch-render/

    渲染结果:

    【讨论】:

      【解决方案2】:

      爬虫通常不执行 Javascript。所以可以用JS监控访问。您还可以过滤掉机器人的用户代理。

      这是我在爬虫用户代理中找到的第一个列表。

      https://deviceatlas.com/blog/list-of-web-crawlers-user-agents

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2015-11-16
        • 2012-10-04
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2016-02-16
        • 2019-11-07
        相关资源
        最近更新 更多