我如何解析 Mediawiki Sommaire 并使用 PHP 找到 HTML 代码？答案

【问题标题】：How i can Parse Mediawiki Sommaire and found the HTML code with PHP?我如何解析 Mediawiki Sommaire 并使用 PHP 找到 HTML 代码？
【发布时间】：2018-07-03 22:25:47
【问题描述】：

带有 mediawiki 链接的示例：https://www.visionduweb.eu/wiki/index.php?title=Utiliser_PHP

显示源代码并从此 Mediawiki 页面中识别侍酒。

我搜索了如何解析源代码并找到了这个侍酒师的 HTML 代码。

#

我试过 $domExemple = $xpath->query(« //ul/li »);但我的答案太多，格式也很差。

我尝试使用 $domExemple = $xpath->query(« //ul/li[@class='toclevel-1 tocsection-1'] »);这给了我结果，但是，如何获得所有 toclevel 和 tocsection，而无需指定数字 1、2、或 3，... toclevel 或 tocsection。

在这个例子中，我没有得到 HTML 内容，只有文本内容。我宁愿检索 HTML 内容。

【问题讨论】：

使用代码块中的示例会更容易阅读此问题。 ps：您要解析/提取html的哪个特定部分？

标签： php html regex parsing mediawiki

【解决方案1】：

我相信您可以使用此处定义的语法来简化您的 xpath 表达式： How can I match on an attribute that contains a certain string?

试试这样的：

$results = $xpath->query('//ul/li[contains(@class, "toclevel-") and contains(@class, "tocsection-"]');
foreach ($results as $li) {
    // to get html of $li, import it into a fresh DOMDocument and run saveHTML
    $newdoc = new DOMDocument();
    $cloned = $li->cloneNode(true);
    $newdoc->appendChild($newdoc->importNode($cloned, true));
    echo $newdoc->saveHTML();
}

【讨论】：