【问题标题】:Can't retrieve full URL of external webpage with curl无法使用 curl 检索外部网页的完整 URL
【发布时间】:2025-12-31 13:25:11
【问题描述】:

我正在使用 curl 和正则表达式从页面中抓取特定的 URL,以便我可以解析这些子页面。但是,在链接之后,我从母版页检索到的 URL 会发生变化。

例如我从母版页检索以下 URL:

https://www.crowdcube.com/investment/labrador-ltd-22191   
https://www.crowdcube.com/investment/wegow-21995

当我打开这些链接时,浏览器中的 URL 会变为这些:

https://www.crowdcube.com/companies/labrador-ltd/pitches/qayzEq   
https://www.crowdcube.com/companies/wegow/pitches/qY9EXq

这导致我无法在我的 curl 脚本中使用原始 URL。

【问题讨论】:

  • 那么你的问题是什么?
  • 您是否尝试过将 curl 与 CURLOPT_FOLLOWLOCATION 一起使用?
  • 那些页面以 302 响应,正确处理 302 并遵循它...
  • @JacobRiches np。我将您的问题的解决方案复制到一个答案中。请确认,以便完成此问题,其他人也可以找到此解决方案。泰。

标签: php curl web-scraping


【解决方案1】:

将 curl 与 CURLOPT_FOLLOWLOCATION 选项一起使用,因此它会自动跟随任何重定向。

【讨论】: