【问题标题】:Recommendation for parsing HTML and SGML file [closed]解析 HTML 和 SGML 文件的建议 [关闭]
【发布时间】:2012-09-25 03:17:59
【问题描述】:

我有一个项目可以接受诸如(html、sgml、xml 和 txt)之类的输入。

我解析 XML 文件和 txt 文件没有问题,请您推荐一些我可以用来解析 html 或 sgml 文件的工具。

【问题讨论】:

标签: c# .net html xml sgml


【解决方案1】:

对于 HTMl 解析器,使用 HTML Agilty Pack - 它是一个用于 .NET 的开源 HTML 解析器。

什么是 Html Agility Pack (HAP)?

这是一个敏捷的 HTML 解析器,它构建了一个读/写 DOM 并支持 普通的 XPATH 或 XSLT(您实际上不必了解 XPATH 或 XSLT 使用它,不用担心...)。它是一个 .NET 代码库,允许 您可以解析“网络之外”的 HTML 文件。解析器非常宽容 使用“真实世界”格式错误的 HTML。对象模型非常相似 什么建议 System.Xml,但用于 HTML 文档(或流)。

您可以使用它来查询 HTML 并提取您想要的任何数据。

对于 SGML 解析器

查看此链接,SGMLReader - 将任何 HTML 转换为有效的 XML:

http://developer.mindtouch.com/Community/SgmlReader

参考:SGML parser .NET recommendations

【讨论】:

  • 有人试过用 HAP 处理 sgml 文件吗?
【解决方案2】:

对于解析 HTML,除了http://htmlagilitypack.codeplex.com/,我无法推荐其他任何东西,因为 SGML 基本相同,但对于其他元素,您可能也可以使用它。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2011-06-19
    • 2010-09-09
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-01-30
    • 1970-01-01
    相关资源
    最近更新 更多