【发布时间】:2011-01-26 23:21:19
【问题描述】:
我有 HTML 源代码,我必须在 HTML 中获得一些信息文本。我不能使用 DOM,因为文档格式不正确。
也许,源以后可能会改变,我不知道这种情况。因此,这个问题的解决方案必须在大多数情况下都是可行的。
我正在使用 curl 获取源代码,我将使用 preg_match_all 函数和正则表达式对其进行编辑。
来源:
...<TR Class="Head1">
<TD width="15%"><font size="12">Name</font></TD>
<TD>:&nbsp;</TD>
<TD align="center"><font color="red">Alex</font></TD>
<TD width="25%"><b>Job</b></TD>
<TD>:&nbsp;</B></TD>
<TD align="center" width="25%"><font color="red">Doctor</font></TD>
</TR>
...
...
<TR Class="Head2">
<TD width="15%" align="left">Age</B></TD>
<TD>:&nbsp;</TD>
<TD align="center"><font color="red">32</font></TD>
<TD width="15%"><font size="10">data</TD></font>
<TD>&nbsp;</B></TD>
<TD width="40%">&nbsp;</TD>
</TR>
...
正如我们所见,源的格式不正确。事实上,可怕!但我无能为力。 源比这个长。
如何从源中获取数据?我可以删除所有的 HTML 代码,但是我怎么知道数据的顺序呢?我可以用 preg_match_all 和正则表达式做什么?我还能做什么?
我在等你的帮助。
【问题讨论】:
-
你试过用
DOM吗?您可以使用@抑制错误,即使格式不正确,它仍然可以工作
标签: php regex preg-match preg-match-all