【发布时间】:2016-06-23 11:42:57
【问题描述】:
我正在尝试构建一个 robots.txt 解析器,但我脑子里有个简单的问题:robots.txt 文件的规则是什么?
我开始搜索它,在 robotstxt.org 上我发现了一个 1996 年的 document,它为 robots.txt 文件定义了一些规则。本文档明确定义了 User-agent、Allow 和 Disallow 的所有规则。
在寻找 robots.txt 的一些示例时,我找到了标签,例如 Sitemap 和 Host。
我一直在寻找它,并在维基百科上找到了这个document。解释一些额外的标签。
但我的意思是,由于我对 Wikipedia 不太信任,并且 Web Crawler 技术正在不断发展,为 robots.txt 文件创建新规则,有没有一个地方可以找到每条规则在 robots.txt 文件中定义?
【问题讨论】:
-
解析文件后打算做什么?您是否正在实施网络爬虫?用它做其他事情?
-
我打算做一个简单的网络爬虫。获取一种独特的内容,但首先我要实现机器人。
-
我明白了。对于这样的事情,你真的只需要“User-Agent”、“Disallow”、“X-Robots-Meta”和“”。其他选项相当少见,适用于更高级的用例(例如,只有当您的爬虫定期以非常频繁的时间间隔爬取同一个网站并且具有比大多数网站更大的爬取能力时,明确给出爬取率才有意义。网站必须接收来自爬虫的流量)。
-
我知道我实际上并不需要它。但由于我找不到提供有关 robots.txt 的所有信息的来源,我想知道是否有其他人知道。
标签: robots.txt