【发布时间】:2013-07-30 08:41:47
【问题描述】:
我有一个 ajax 丰富的网站,其中包含大量用于 Ajax 索引的 _escaped_fragment_ 部分。虽然我所有的 _escaped_fragment_ url 都会 301 重定向到一个特殊模块,然后输出爬虫所需的 HTML 快照(即 mysite.com/#!/content 重定向到 mysite.com/?_escaped_fragment_=/content,然后 301s 到 mysite.com/raw/content),我有点害怕用户绊倒这些“原始” URL 本身并使它们出现在搜索引擎中。
在 PHP 中,我如何确保只有机器人可以访问网站的这一部分? (很像 StackOverflow 不允许普通用户访问其站点地图,只允许机器人访问它)
【问题讨论】:
标签: php web-crawler robots.txt