【发布时间】:2012-09-25 03:17:59
【问题描述】:
我有一个项目可以接受诸如(html、sgml、xml 和 txt)之类的输入。
我解析 XML 文件和 txt 文件没有问题,请您推荐一些我可以用来解析 html 或 sgml 文件的工具。
【问题讨论】:
我有一个项目可以接受诸如(html、sgml、xml 和 txt)之类的输入。
我解析 XML 文件和 txt 文件没有问题,请您推荐一些我可以用来解析 html 或 sgml 文件的工具。
【问题讨论】:
对于 HTMl 解析器,使用 HTML Agilty Pack - 它是一个用于 .NET 的开源 HTML 解析器。
什么是 Html Agility Pack (HAP)?
这是一个敏捷的 HTML 解析器,它构建了一个读/写 DOM 并支持 普通的 XPATH 或 XSLT(您实际上不必了解 XPATH 或 XSLT 使用它,不用担心...)。它是一个 .NET 代码库,允许 您可以解析“网络之外”的 HTML 文件。解析器非常宽容 使用“真实世界”格式错误的 HTML。对象模型非常相似 什么建议 System.Xml,但用于 HTML 文档(或流)。
您可以使用它来查询 HTML 并提取您想要的任何数据。
对于 SGML 解析器
查看此链接,SGMLReader - 将任何 HTML 转换为有效的 XML:
【讨论】:
对于解析 HTML,除了http://htmlagilitypack.codeplex.com/,我无法推荐其他任何东西,因为 SGML 基本相同,但对于其他元素,您可能也可以使用它。
【讨论】: