【发布时间】:2014-05-14 13:30:15
【问题描述】:
我正在使用简单的 HTML DOM 库开发网络爬虫。我已经获得了一个网站的所有链接。现在我想爬取我获得的所有链接/页面,搜索并在所有页面上找到一些特定的文本。
这是我获取所有链接的代码
<?php
include_once("simple_html_dom.php");
set_time_limit(0);
$path='http://www.barringtonsports.com';
$html = file_get_contents($path);
$dom = new DOMDocument();
@$dom->loadHTML($html);
$xpath = new DOMXPath($dom);
$hrefs = $xpath->evaluate("/html/body//a");
for ($i = 0; $i < $hrefs->length; $i++ ) {
$href = $hrefs->item($i);
$url = $href->getAttribute('href');
$nurl = $path.$url.'<br>';
echo $nurl;
}
?>
【问题讨论】:
标签: web-crawler