【问题标题】:Parsing HTML with formatted text使用格式化文本解析 HTML
【发布时间】:2016-03-11 03:30:07
【问题描述】:

我正在使用 DOMDocument 解析 HTML 网页。

这是我的代码:

$doc = new DOMDocument();
$doc->strictErrorChecking = false;
$input = file_get_contents($url); //Url passato come parametro
$doc->loadHTML( $input );
$xpath = new DOMXpath($doc);
$article = $xpath->query('//div[@class="entry-container fix"]');

在 $article 中,我将所有文本都放在“入口容器修复”Div 中。

但是网页中的这个文本有一个格式化的文本。 简单举例:

<div> 
   <p> Text <strong> Strong text </strong> </p>
</div>

使用我的代码,我丢失了所有粗体、意大利语字符、所有段落... 有办法获取所有格式化文本吗?

【问题讨论】:

标签: php html parsing domdocument


【解决方案1】:

为什么不使用 saveHTML 函数来提取 HTML(这里是链接:http://php.net/manual/fr/domdocument.savehtml.php)。它看起来像这样:

$sFormated = $doc->saveHTML($article->item(0));

【讨论】:

  • 我正在尝试使用它。但它不起作用。你能更好地解释我如何在我的代码中使用它吗?我试过例如: $doc->saveHTML($article['output']->nodeValue(0));但还是不行。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2014-12-08
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2010-12-23
  • 1970-01-01
相关资源
最近更新 更多