【问题标题】:How i can Parse Mediawiki Sommaire and found the HTML code with PHP?我如何解析 Mediawiki Sommaire 并使用 PHP 找到 HTML 代码?
【发布时间】:2018-07-03 22:25:47
【问题描述】:

带有 mediawiki 链接的示例:https://www.visionduweb.eu/wiki/index.php?title=Utiliser_PHP

显示源代码并从此 Mediawiki 页面中识别侍酒。

我搜索了如何解析源代码并找到了这个侍酒师的 HTML 代码。

#

我试过 $domExemple = $xpath->query(« //ul/li »);但我的答案太多,格式也很差。

我尝试使用 $domExemple = $xpath->query(« //ul/li[@class='toclevel-1 tocsection-1'] »);这给了我结果,但是,如何获得所有 toclevel 和 tocsection,而无需指定数字 1、2、或 3,... toclevel 或 tocsection。

在这个例子中,我没有得到 HTML 内容,只有文本内容。 我宁愿检索 HTML 内容。

【问题讨论】:

  • 使用代码块中的示例会更容易阅读此问题。 ps:您要解析/提取html的哪个特定部分?

标签: php html regex parsing mediawiki


【解决方案1】:

我相信您可以使用此处定义的语法来简化您的 xpath 表达式: How can I match on an attribute that contains a certain string?

试试这样的:

$results = $xpath->query('//ul/li[contains(@class, "toclevel-") and contains(@class, "tocsection-"]');
foreach ($results as $li) {
    // to get html of $li, import it into a fresh DOMDocument and run saveHTML
    $newdoc = new DOMDocument();
    $cloned = $li->cloneNode(true);
    $newdoc->appendChild($newdoc->importNode($cloned, true));
    echo $newdoc->saveHTML();
}

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2019-12-28
    • 2020-12-23
    • 2011-04-07
    • 2023-03-30
    • 2013-04-27
    • 2015-07-17
    相关资源
    最近更新 更多