【发布时间】:2015-02-24 13:21:05
【问题描述】:
根据谷歌网站管理员工具,最近我的网络服务器上的 robots.txt 文件出现了一些问题。更准确地说,我得到“由于 robots.txt 无法访问而推迟抓取”。信息。 这很奇怪,因为如果你尝试访问它:http://www.newsflow24.com/robots.txt 看起来还不错,即使是 google 抓取测试器也显示没有问题,但真正的 google bot 似乎有一些问题。
因此,要了解发生了什么,我想知道,我如何查看日志文件或其他内容,以便我可以找出当 google bot 尝试在 x 时间访问 robots.txt 文件时究竟发生了什么。
第一段只是我的问题的介绍,我真正的问题是第二段。
提前致谢。
【问题讨论】:
标签: linux logging web-crawler monitoring server