【问题标题】:Search Spiders Crashing Apache搜索蜘蛛崩溃 Apache
【发布时间】:2014-06-22 06:02:41
【问题描述】:

我的网络服务器经常崩溃,我注意到它总是在此错误日志条目之后发生:

[Sun Jun 22 00:41:41 2014] [error] [client 207.46.13.71] File does not exist: C:/*directory*/robots.txt

我知道这个 IP 属于 Bing 蜘蛛。据我了解,如果找不到 robots.txt 的实例,必应会尝试为我的网站编制索引。我相信当它尝试为我的网站编制索引时,会发生导致崩溃的问题。

我的问题是无法重新创建或定位问题。我的访问日志似乎没有显示 Bing 试图索引哪些文件,或者哪些脚本导致服务器崩溃。通过向某些脚本传递无效或没有信息,我在黑暗中采取了一些措施,但到目前为止,我还没有发现任何损坏的东西。

谁能向我解释我在尝试查找导致我的网络服务器崩溃的脚本时还有哪些其他选择?

我在 Windows 机器上使用 XAMPP 运行 Apache/2.2.17。

【问题讨论】:

  • 如果您的 Apache 日志没有显示 Bing 爬取您的网站的任何记录,您怎么知道它会导致它崩溃?
  • 为什么没有 robots.txt 文件?
  • 安德斯,对不起,我真的认为这无关紧要。我在其中编辑了该信息。@LukePeterson 崩溃在几天内定期发生。每次崩溃都直接发生在 Bing 尝试访问“robots.txt”之前。
  • 您是否尝试过仅创建 robots.txt 文件?或者甚至在那里添加指令以防止 Bing 爬行? (即使是暂时的)
  • @MikeBrant 我几乎不认为创建一个 robots.txt 文件是解决我的网络服务器崩溃的错误脚本的正确解决方案。解决此问题后,我将创建它。

标签: php apache webserver error-log access-log


【解决方案1】:

由于您没有 robots.txt,因此您基本上是在告诉 Bingbot 可以尽可能快地抓取您的网站。比如:

User-agent: bingbot
Disallow:
Crawl-delay: 10

将在很大程度上帮助您了解失败的原因。没有 robots.txt,因为我认为它“听起来像创可贴”是错误的方法。

【讨论】:

  • 我想我对 robots.txt 的用途有误解;我不知道它有这种功能。我会试一试,谢谢!
  • 别担心,祝你好运。 ;) 我很想知道您还发现了什么。
  • 我一定会在弄清楚问题的原因后发布。现在我只是在等待玩等待游戏。是否有任何可用的工具可以用来像搜索索引一样手动扫描我的网站?
  • 是的,试试Xenu。它不是最漂亮的工具,但我多年来一直在使用它来解决这个确切的场景。 ;)
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2011-09-29
  • 1970-01-01
  • 1970-01-01
  • 2010-12-20
  • 1970-01-01
  • 1970-01-01
  • 2017-09-11
相关资源
最近更新 更多