【发布时间】:2012-05-14 13:31:08
【问题描述】:
我的页面看起来像这样:
...
<div class="container">
<div class="info">
<h3>Info 1</h3>
<span class="title">Title for Info 1</span>
<a href="http://www.example.com/1">Link to Example 1</a>
</div> <!-- /info -->
<div class="info">
<h3>Info 2</h3>
<span class="title">Title for Info 2</span>
<a href="http://www.example.com/2">Link to Example 2</a>
</div> <!-- /info -->
<div class="info">
<h3>Info 3</h3>
<span class="title">Title for Info 3</span>
<a href="http://www.example.com/3">Link to Example 3</a>
</div> <!-- /info -->
</div> <!-- /container -->
...
每个 info 类 div 的结构都是相同的,我希望能够循环遍历文档,并为每个带有 info 类的 div,将各种组件解析为数组或单个变量用于以某种人类可读的格式输出数据,例如 csv 文件或 HTML 表格。
我试过使用 DOMDocument 方法,并使用 getElementByTagName 来提取每个标签的内容,但是由于 div 包含多种标签类型(h3、a、span),我还没有弄清楚如何完成我的工作正在寻找。
最后,我希望能够以这样的格式放置数据:
divclass, h3, spanclass, spantitle, ahref, a
info, Info 1, title, Title for Info 1, http://www.example.com/1, Link to Example 1
...
谢谢!
【问题讨论】:
-
您是否尝试过使用 Simple HTML Dom Parser 之类的库?
标签: php domdocument