【问题标题】:Get a list of all the urls in a web page获取网页中所有 url 的列表
【发布时间】:2011-04-08 04:50:15
【问题描述】:

获取网页中所有 URL 的数组的最佳方法是什么?我该怎么做?

【问题讨论】:

  • 你在想什么样的 url 用法? href 在链接上,action 在表单上,​​src 在图像和其他上,页面上任何位置的 url 文字,指向 css/js 的链接等
  • 我支持 Cyber​​Dude 的提议。请具体说明您想要的 URL 类型。

标签: c# regex html-parsing


【解决方案1】:
/<a href=\"([^\"]*)\">(.*)<\/a>/iU

或使用之前的答案:

Regular expression for parsing links from a webpage?

【讨论】:

  • 我不敢相信有答案建议使用正则表达式进行屏幕抓取。
  • 达林,我不建议,我回答这个问题,这家伙是成年人,不是孩子。他有一个你想知道的答案。
  • @Pierre 303,SO 不是为了不假思索地回答问题。它主要用于倡导如何解决与编程相关的问题的良好实践。 SO 是一个很好的参考网站,许多人将其作为良好实践的信息来源阅读,建议使用正则表达式在 C# 中解析 HTML 只是 not a good practice。对不起。
  • 达林,除了证明你的技术优势,我真的不明白你的固执。也许被我以外的其他人投反对票伤害了你的感情?请设身处地为回答问题的男孩/女孩着想。他/她不是在他/她的问题中寻求建议,而是在寻求答案。这是我提供的。如果他需要建议,您已在回答中提供。所以 SO 是一个获得不同答案的好地方,而不仅仅是一个来自高级技术人员的答案。
  • 哦,他/她不想专门解析 HTML,他/她想检索包含在文本文档中的所有 URL,在她/他的情况下,这是一个 HTML 文档。对我来说,解析 HTML 看起来像是一种开销/过度工程。您会为此付费,而不是拥有一个简单有效的解决方案吗?
【解决方案2】:

使用HTML Agility Packgood way,可能不是最好的,因为这是主观的,但我可以告诉你最坏的情况,这是使用正则表达式来解析html(因为你已经用regex 标记了你的问题我觉得自己有义务指出这一点)。

【讨论】:

  • 为什么这被否决了?请在对答案投反对票时发表评论,以表达您对为什么认为此答案错误的看法。
猜你喜欢
  • 2013-08-19
  • 1970-01-01
  • 1970-01-01
  • 2021-10-10
  • 1970-01-01
  • 1970-01-01
  • 2022-01-02
  • 2018-09-05
  • 2017-04-02
相关资源
最近更新 更多