【发布时间】:2011-10-17 01:23:43
【问题描述】:
如何使用正则表达式获取<body> 标签内的全部内容?
例如,
<html><body><p><a href="#">xx</a></p>
<p><a href="#">xx</a></p></body></html>
我只想退货,
<p><a href="#">xx</a></p>
<p><a href="#">xx</a></p>
或者还有其他更好的想法吗?也许是 DOM 但我必须使用 saveHTML(); 然后它会返回 doctype 和 body 标签...
HTML Purifier 使用起来很痛苦,所以我决定不使用它。我认为正则表达式可能是我灾难的下一个最佳选择。
【问题讨论】:
-
这样的正则表达式对你不起作用
<body>(.*)</body>? -
@sahid - 不,怎么样,
<body class="large-text"> ... </body> -
不要使用正则表达式。 htmlparsing.com/php.html 为您提供了如何使用正确的 HTML 解析器的示例。其实,如果你使用的是simple_html_dom,那么简单到
file_get_html('http://www.google.com/')->plaintext;
标签: php regex html-parsing