【问题标题】:Robots.txt and Allow?Robots.txt 和允许?
【发布时间】:2017-06-08 23:58:39
【问题描述】:

所以我是网络爬虫的新手,我无法理解特定的 robots.txt 文件。在这种情况下,这就是网站所拥有的:

User-agent: *

Allow: /

Sitemap: sitemapURLHere 

所以我查找了/here,发现它适用于任何路径。那么这是否意味着该网站允许对所有页面进行爬取呢?但是,当我尝试使用 scrapy 对 sitemap.xml(或其他站点 URL)链接进行基本爬取时,即

scrapy shell siteURL 

我收到403 HTTP 响应,我假设来自this 链接意味着该网站不希望您抓取...那么该网站的robots.txt 到底是什么意思?

EDIT我说的文件是here

【问题讨论】:

  • 可能是需要认证的页面。 404 通常表明它不应该被废弃
  • @cricket_007 我明白了!我刚刚打印出该网站的response.text 并意识到它正在要求验证码,所以这将是我的问题,对吗?
  • 好像是这样
  • 搜索爬虫使用的文件 robots.txt,但服务器可以使用任何其他限制。等等,您可以看到允许 *,但如果没有正确的用户代理,服务器将不会向您显示内容。
  • 如果您可以在浏览器中打开相同的 url,您可以尝试 1) 将用户代理设置为等于浏览器一或 2) 验证您的方式中没有 javascript。

标签: python scrapy web-crawler robots.txt scrapy-shell


【解决方案1】:

这意味着“任何用户代理(机器人)都可以访问所有内容”和“在与robots.txt 相同的目录中有一个名为 sitemapURLHere 的站点地图”。

REM: robots.txt 只是一组指示,而不是强制访问限制的手段。如果不能报废,不是robots.txt本身的原因。

【讨论】:

    猜你喜欢
    • 2023-04-07
    • 2016-08-01
    • 2013-08-18
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-06-13
    相关资源
    最近更新 更多