【发布时间】:2020-07-15 18:38:17
【问题描述】:
我正在使用带有 PHP 的 HTML Simple Dom Parser 从网站获取标题、描述和图像。我面临的问题是我得到了我不想要的 html 以及如何排除那些 html 标签。下面是解释。
这是一个正在解析的示例 html 结构。
<div id="product_description">
<p> Some text</p>
<ul>
<li>value 1</li>
<li>value 2</li>
<li>value 3</li>
</ul>
// the div I dont want
<div id="comments">
<h1> Some Text </h1>
</div>
</div>
我正在使用下面的php脚本来解析,
foreach($html->find('div#product_description') as $description)
{
echo $description->outertext ;
echo "<br>";
}
上面的代码解析了 id 为“product_description”的 div 中的所有内容。我想排除 ID 为“cmets”的 div。我尝试将其转换为字符串,然后使用 substr 排除最后一个字符,但这不起作用。不知道为什么。关于我该怎么做的任何想法?任何允许我从解析的 html 中排除 div 的方法都可以。谢谢
【问题讨论】:
标签: php parsing web-scraping html-parsing simple-html-dom