【发布时间】:2016-03-11 03:30:07
【问题描述】:
我正在使用 DOMDocument 解析 HTML 网页。
这是我的代码:
$doc = new DOMDocument();
$doc->strictErrorChecking = false;
$input = file_get_contents($url); //Url passato come parametro
$doc->loadHTML( $input );
$xpath = new DOMXpath($doc);
$article = $xpath->query('//div[@class="entry-container fix"]');
在 $article 中,我将所有文本都放在“入口容器修复”Div 中。
但是网页中的这个文本有一个格式化的文本。 简单举例:
<div>
<p> Text <strong> Strong text </strong> </p>
</div>
使用我的代码,我丢失了所有粗体、意大利语字符、所有段落... 有办法获取所有格式化文本吗?
【问题讨论】:
标签: php html parsing domdocument