【发布时间】:2016-09-15 10:22:39
【问题描述】:
我不知道该怎么做,我可能会得到一些反对票。
我有一个类似这样的网页:
<li class="specific-class">
<a href="http://unknown-url.com">Unknown Link</a>
</li>
我想爬取一个页面,该页面填充了我对检索不感兴趣的其他几个元素。
我只想检索锚标记中的href 属性,在li 元素内,仅此而已。之后,我将点击链接并获取另一个网页,其中包含以下内容:
<h1 class="specific-class">Blah Blah Blah</h1>
所以最后,我会得到 h1 元素中的任何内容:
Blah Blah Blah
如果你们能帮助我解决这个问题,我将不胜感激。此外,任何 API 都可以做得很好。
我有这段从元素中获取属性的代码,但我无法让它爬取在特定元素中找到的元素。
<?php
include_once('simple_html_dom.php');
$target_url = "https://www.google.com/";
$html = new simple_html_dom();
$html->load_file($target_url);
foreach($html->find('a') as $link){
echo $link->href."<br>";
}
?>
【问题讨论】:
-
提供您到目前为止所做的工作,以便我们提出进一步的解决方案。
-
我已经编辑了这个问题。 @Sasikumar
标签: php html web-crawler phpcrawl