【发布时间】:2010-05-08 11:06:18
【问题描述】:
我需要一些关于如何检测已抓取页面的标题和内容的指南。自从我开始研究这个爬虫以来,我一直在看到一些非常奇怪的前端代码工作。
【问题讨论】:
标签: parsing web-crawler
我需要一些关于如何检测已抓取页面的标题和内容的指南。自从我开始研究这个爬虫以来,我一直在看到一些非常奇怪的前端代码工作。
【问题讨论】:
标签: parsing web-crawler
你可以试试Simple HTML DOM Parser。它使用一种语法来查找类似于 jQuery 的特定元素。
他们有一个关于如何抓取 Slashdot 的示例:
// Create DOM from URL
$html = file_get_html('http://slashdot.org/');
// Find all article blocks
foreach($html->find('div.article') as $article) {
$item['title'] = $article->find('div.title', 0)->plaintext;
$item['intro'] = $article->find('div.intro', 0)->plaintext;
$item['details'] = $article->find('div.details', 0)->plaintext;
$articles[] = $item;
}
print_r($articles);
【讨论】:
<td><table cellSpacing=0 cellPadding=0 width="100%" border=0><tbody><tr><td align=right width="95%" style="border-color:#3333DD; font-family:Times New Roman, Times, serif; font-weight:bold;color:#003399; font-size:22px; text-align:center; overflow:hidden;"><b> --- 这是我们目标网站上标题的起始标签。