【问题标题】:HEAD requests vs getting only the `<head>` of a web pageHEAD 请求与仅获取网页的 `<head>`
【发布时间】:2012-03-04 13:06:21
【问题描述】:

我正在编写一些链接抓取代码,我希望只抓取给定网页的&lt;head&gt; 部分。显然我对 HEAD 请求是什么感到困惑,因为我认为它应该这样做。相反,它只返回 HTTP 标头。

有没有办法只获取给定页面的&lt;head&gt; 部分,而不获取整个文档?

【问题讨论】:

    标签: http html-parsing head


    【解决方案1】:

    不,HTTP 协议(​​根本不了解 HTML)对此没有规定。您需要执行正确的 GET 或 POST,使用 HTML 解析器来提取您需要的数据。

    您唯一能做的就是使用Range 标头来限制您返回的内容,但这只是您对请求数据量的猜测。

    【讨论】:

      猜你喜欢
      • 2011-12-11
      • 1970-01-01
      • 2012-03-22
      • 2013-01-09
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多