使用格式化文本解析 HTML答案

【问题标题】：Parsing HTML with formatted text使用格式化文本解析 HTML
【发布时间】：2016-03-11 03:30:07
【问题描述】：

我正在使用 DOMDocument 解析 HTML 网页。

这是我的代码：

$doc = new DOMDocument();
$doc->strictErrorChecking = false;
$input = file_get_contents($url); //Url passato come parametro
$doc->loadHTML( $input );
$xpath = new DOMXpath($doc);
$article = $xpath->query('//div[@class="entry-container fix"]');

在 $article 中，我将所有文本都放在“入口容器修复”Div 中。

但是网页中的这个文本有一个格式化的文本。简单举例：

<div> 
   <p> Text <strong> Strong text </strong> </p>
</div>

使用我的代码，我丢失了所有粗体、意大利语字符、所有段落... 有办法获取所有格式化文本吗？

【问题讨论】：

stackoverflow.com/questions/17065063/…

标签： php html parsing domdocument

【解决方案1】：

为什么不使用 saveHTML 函数来提取 HTML（这里是链接：http://php.net/manual/fr/domdocument.savehtml.php）。它看起来像这样：

$sFormated = $doc->saveHTML($article->item(0));

【讨论】：

我正在尝试使用它。但它不起作用。你能更好地解释我如何在我的代码中使用它吗？我试过例如： $doc->saveHTML($article['output']->nodeValue(0));但还是不行。