使用 PHP Simple HTML DOM Parser 获取文本答案

【问题标题】：Get text with PHP Simple HTML DOM Parser使用 PHP Simple HTML DOM Parser 获取文本
【发布时间】：2012-04-08 21:29:53
【问题描述】：

我正在使用 PHP Simple HTML DOM Parser 从网页中获取文本。我需要操作的页面是这样的：

<html>
<head>
<title>title</title>
<body>
<div id="content">
<h1>HELLO</h1>
Hello, world!
</div>
</body>
</html>

我需要获取h1 元素和没有标签的文本。要获得h1，我使用以下代码：

$html = file_get_html("remote_page.html");
foreach($html->find('#content') as $text){
echo "H1: ".$text->find('h1', 0)->plaintext;
}

但是其他文本呢？我也在 foreach 中尝试了这个，但我得到了全文：

$text->plaintext;

但它也返回了H1 标签...

【问题讨论】：

【解决方案1】：

看起来$text->find('text',2); 得到了您正在寻找的东西，但是我不确定当文本节点的数量未知时它的效果如何。我会继续寻找。

【讨论】：

【解决方案2】：

您可以使用 strip_tags 简单地去除 html 标签

<?php
strip_tags($input, '<br>');
?>

【讨论】：

【解决方案3】：

正如@Peachy 指出的那样，使用条形标签。但是，将第二个参数 <br> 传递给它意味着字符串将忽略 <br> 标签，这是不必要的。在你的情况下，

<?php
    strip_tags($text);
?>

如果您只选择content id 中的内容，可以按您的意愿工作。

【讨论】：

【解决方案4】：

试试看

echo "H1: ".$text->find('h1', 0)->innertext;

【讨论】：