我想使用 php 爬虫从此文档中获取特定的 url答案

【问题标题】：I want to get specific urls from this document using a php crawler我想使用 php 爬虫从此文档中获取特定的 url
【发布时间】：2016-09-15 10:22:39
【问题描述】：

我不知道该怎么做，我可能会得到一些反对票。

我有一个类似这样的网页：

<li class="specific-class">
    <a href="http://unknown-url.com">Unknown Link</a>
</li>

我想爬取一个页面，该页面填充了我对检索不感兴趣的其他几个元素。

我只想检索锚标记中的href 属性，在li 元素内，仅此而已。之后，我将点击链接并获取另一个网页，其中包含以下内容：

<h1 class="specific-class">Blah Blah Blah</h1>

所以最后，我会得到 h1 元素中的任何内容：

Blah Blah Blah

如果你们能帮助我解决这个问题，我将不胜感激。此外，任何 API 都可以做得很好。

我有这段从元素中获取属性的代码，但我无法让它爬取在特定元素中找到的元素。

<?php
include_once('simple_html_dom.php');
$target_url = "https://www.google.com/";
$html = new simple_html_dom();
$html->load_file($target_url);
foreach($html->find('a') as $link){
     echo $link->href."<br>";

}

?>

【问题讨论】：

提供您到目前为止所做的工作，以便我们提出进一步的解决方案。
我已经编辑了这个问题。 @Sasikumar

标签： php html web-crawler phpcrawl

【解决方案1】：

请阅读DOMDocument。您可以使用方法：getElementsByTagName、getElementById 等。

【讨论】：