【发布时间】:2011-06-05 05:18:53
【问题描述】:
我想要一个或多个正则表达式,它可以:
1) 取大页面的html。
2) 查找所有链接中包含的url,例如:
<a href="http://example1.com">Test 1</a>
<a class="foo" id="bar" href="http://example2.com">Test 2</a>
<a onclick="foo();" id="bar" href="http://example3.com">Test 3</a>
等等,它应该提取包含在'href'attribute中的url,不管href之前或之后是什么
3) 提取所有链接的锚文本,例如在上面的例子中,它应该返回'http://example1.com'和锚文本'Test 1',然后是'http://example2.com ' 和 'Test 2' 等等。
【问题讨论】:
-
有什么理由不想为此使用 DOM 解析器?以及您找不到副本的任何原因?
-
我喜欢这个问题每天被问一百万次
标签: php regex string html-parsing