【发布时间】:2012-03-04 13:06:21
【问题描述】:
我正在编写一些链接抓取代码,我希望只抓取给定网页的<head> 部分。显然我对 HEAD 请求是什么感到困惑,因为我认为它应该这样做。相反,它只返回 HTTP 标头。
有没有办法只获取给定页面的<head> 部分,而不获取整个文档?
【问题讨论】:
标签: http html-parsing head
我正在编写一些链接抓取代码,我希望只抓取给定网页的<head> 部分。显然我对 HEAD 请求是什么感到困惑,因为我认为它应该这样做。相反,它只返回 HTTP 标头。
有没有办法只获取给定页面的<head> 部分,而不获取整个文档?
【问题讨论】:
标签: http html-parsing head
不,HTTP 协议(根本不了解 HTML)对此没有规定。您需要执行正确的 GET 或 POST,使用 HTML 解析器来提取您需要的数据。
您唯一能做的就是使用Range 标头来限制您返回的内容,但这只是您对请求数据量的猜测。
【讨论】: