【发布时间】:2017-06-08 23:58:39
【问题描述】:
所以我是网络爬虫的新手,我无法理解特定的 robots.txt 文件。在这种情况下,这就是网站所拥有的:
User-agent: *
Allow: /
Sitemap: sitemapURLHere
所以我查找了/here,发现它适用于任何路径。那么这是否意味着该网站允许对所有页面进行爬取呢?但是,当我尝试使用 scrapy 对 sitemap.xml(或其他站点 URL)链接进行基本爬取时,即
scrapy shell siteURL
我收到403 HTTP 响应,我假设来自this 链接意味着该网站不希望您抓取...那么该网站的robots.txt 到底是什么意思?
EDIT我说的文件是here
【问题讨论】:
-
可能是需要认证的页面。 404 通常表明它不应该被废弃
-
@cricket_007 我明白了!我刚刚打印出该网站的
response.text并意识到它正在要求验证码,所以这将是我的问题,对吗? -
好像是这样
-
搜索爬虫使用的文件 robots.txt,但服务器可以使用任何其他限制。等等,您可以看到允许 *,但如果没有正确的用户代理,服务器将不会向您显示内容。
-
如果您可以在浏览器中打开相同的 url,您可以尝试 1) 将用户代理设置为等于浏览器一或 2) 验证您的方式中没有 javascript。
标签: python scrapy web-crawler robots.txt scrapy-shell