【问题标题】:Identifying and rendering robots识别和渲染机器人
【发布时间】:2013-01-02 20:51:38
【问题描述】:

我们有一些过滤器来征用爬虫,或者浏览器中的机器人和渲染应该没有区别?
请求机器人应该被视为通过浏览器进行的常见访问?

我了解到该机器人有谷歌网页版和移动版。
我们需要确定移动机器人是像手机一样显示内容吗?

【问题讨论】:

    标签: php mobile web-crawler


    【解决方案1】:

    您可以通过域根目录中名为 robots.txt 的文件告诉机器人它可以访问和不能访问的内容。

    你读过这个吗?

    http://www.robotstxt.org/robotstxt.html
    

    它解释了如何允许/禁止机器人进入您网站的某些区域。

    示例:

    从部分服务器中排除所有机器人

    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /tmp/
    Disallow: /junk/
    

    【讨论】:

    • 感谢您的链接...当移动爬虫 google 与否时,我的解释不同?
    • 是的谷歌手机是Googlebot-Mobile普通谷歌是Googlebot这里的链接信息:support.google.com/webmasters/bin/…
    • 另一个注意事项,将 disallow: /some-super-secret-dir/ 放在 robots.txt 文件中是个坏主意。许多邪恶的蜘蛛会以这种方式寻找隐藏文件。只是说!
    猜你喜欢
    • 2010-09-30
    • 2012-08-06
    • 2010-09-30
    • 2015-11-21
    • 2019-01-19
    • 1970-01-01
    • 1970-01-01
    • 2021-07-07
    • 2016-10-30
    相关资源
    最近更新 更多