获取网页中所有 url 的列表答案

【问题标题】：Get a list of all the urls in a web page获取网页中所有 url 的列表
【发布时间】：2011-04-08 04:50:15
【问题描述】：

获取网页中所有 URL 的数组的最佳方法是什么？我该怎么做？

【问题讨论】：

你在想什么样的 url 用法？ href 在链接上，action 在表单上，src 在图像和其他上，页面上任何位置的 url 文字，指向 css/js 的链接等
我支持 CyberDude 的提议。请具体说明您想要的 URL 类型。

【解决方案1】：

/<a href=\"([^\"]*)\">(.*)<\/a>/iU

或使用之前的答案：

【讨论】：

我不敢相信有答案建议使用正则表达式进行屏幕抓取。
达林，我不建议，我回答这个问题，这家伙是成年人，不是孩子。他有一个你想知道的答案。
@Pierre 303，SO 不是为了不假思索地回答问题。它主要用于倡导如何解决与编程相关的问题的良好实践。 SO 是一个很好的参考网站，许多人将其作为良好实践的信息来源阅读，建议使用正则表达式在 C# 中解析 HTML 只是 not a good practice。对不起。
达林，除了证明你的技术优势，我真的不明白你的固执。也许被我以外的其他人投反对票伤害了你的感情？请设身处地为回答问题的男孩/女孩着想。他/她不是在他/她的问题中寻求建议，而是在寻求答案。这是我提供的。如果他需要建议，您已在回答中提供。所以 SO 是一个获得不同答案的好地方，而不仅仅是一个来自高级技术人员的答案。
哦，他/她不想专门解析 HTML，他/她想检索包含在文本文档中的所有 URL，在她/他的情况下，这是一个 HTML 文档。对我来说，解析 HTML 看起来像是一种开销/过度工程。您会为此付费，而不是拥有一个简单有效的解决方案吗？

【解决方案2】：

使用HTML Agility Pack 是good way，可能不是最好的，因为这是主观的，但我可以告诉你最坏的情况，这是使用正则表达式来解析html（因为你已经用regex 标记了你的问题我觉得自己有义务指出这一点）。

【讨论】：