【发布时间】:2013-12-05 18:51:44
【问题描述】:
我目前正在使用下面的查询来提取 <h1> <p> 和 <h3> 标记中的文本。
$xpath->query("//div[contains(concat(' ', normalize-space(@class), ' '), ' grid_9 alpha omega newscontainer arena ')]/h1");
$xpath->query("//div[contains(concat(' ', normalize-space(@class), ' '), ' grid_9 alpha omega newscontainer arena ')]/p");
$xpath->query("//div[contains(concat(' ', normalize-space(@class), ' '), ' grid_9 alpha omega newscontainer arena ')]/h3");
虽然它们有时会以不同的顺序出现,所以我想按照在 html 中出现的顺序来捕捉它们。我确实用过
$xpath->query('//h1 | //p | //h3');
这很好用,但也捕获了上面指定的 div 类之外的一些 <p> 标签。按顺序使用它们根本不起作用。有没有办法将这些查询合并为一个?
基本上提取特定 div 类中的所有 h1、p 和 h3 标签?
【问题讨论】: