【问题标题】:I want to get specific urls from this document using a php crawler我想使用 php 爬虫从此文档中获取特定的 url
【发布时间】:2016-09-15 10:22:39
【问题描述】:

我不知道该怎么做,我可能会得到一些反对票。

我有一个类似这样的网页:

<li class="specific-class">
    <a href="http://unknown-url.com">Unknown Link</a>
</li>

我想爬取一个页面,该页面填充了我对检索不感兴趣的其他几个元素。

我只想检索锚标记中的href 属性,在li 元素内,仅此而已。之后,我将点击链接并获取另一个网页,其中包含以下内容:

<h1 class="specific-class">Blah Blah Blah</h1>

所以最后,我会得到 h1 元素中的任何内容:

Blah Blah Blah

如果你们能帮助我解决这个问题,我将不胜感激。此外,任何 API 都可以做得很好。

我有这段从元素中获取属性的代码,但我无法让它爬取在特定元素中找到的元素。

<?php
include_once('simple_html_dom.php');
$target_url = "https://www.google.com/";
$html = new simple_html_dom();
$html->load_file($target_url);
foreach($html->find('a') as $link){
     echo $link->href."<br>";

}

?>

【问题讨论】:

  • 提供您到目前为止所做的工作,以便我们提出进一步的解决方案。
  • 我已经编辑了这个问题。 @Sasikumar

标签: php html web-crawler phpcrawl


【解决方案1】:

请阅读DOMDocument。您可以使用方法:getElementsByTagName、getElementById 等。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2023-03-10
    • 2021-04-15
    • 1970-01-01
    • 1970-01-01
    • 2013-05-04
    • 1970-01-01
    • 2012-01-29
    • 2018-09-11
    相关资源
    最近更新 更多