【发布时间】:2010-01-06 10:14:40
【问题描述】:
在解析一堆纯文本格式的 html 时,正则表达式是提取和检查所有锚标记的最佳方法,还是 .net 库中内置了任何东西?
【问题讨论】:
标签: c# asp.net parsing plaintext
在解析一堆纯文本格式的 html 时,正则表达式是提取和检查所有锚标记的最佳方法,还是 .net 库中内置了任何东西?
【问题讨论】:
标签: c# asp.net parsing plaintext
RegEx 是你的好朋友。 BCL 中没有内置 HTML 解析器。
如果您的输入符合 XHTML(或符合 XML),您可以使用 XML 和 XPath。将文档加载到XmlDocument 并选择所有a 节点。
【讨论】:
正则表达式很好。但是我发现HTML agility pack 更宽容一些,这也是我在这种情况下会使用的。
【讨论】: