【问题标题】:Stripping MS Word Tags Using Html Agility Pack使用 Html Agility Pack 剥离 MS Word 标签
【发布时间】:2010-01-24 14:38:16
【问题描述】:

我有一个数据库,其中包含一些从 MS Word 粘贴的文本字段,我无法仅剥离 , 和标签,但显然保留了它们的 innerText。

我尝试过使用 HAP,但我没有朝着正确的方向前进..

Public Function StripHtml(ByVal html As String, ByVal allowHarmlessTags As Boolean) As String
    Dim htmlDoc As New HtmlDocument()
    htmlDoc.LoadHtml(html)
    Dim invalidNodes As HtmlNodeCollection = htmlDoc.DocumentNode.SelectNodes("//div|//font|//span")
    For Each node In invalidNodes
        node.ParentNode.RemoveChild(node, False)
    Next
    Return htmlDoc.DocumentNode.WriteTo()
End Function

此代码只是选择所需的元素并删除它们......但不保留它们的内部文本......

提前致谢

【问题讨论】:

    标签: .net html html-agility-pack strip


    【解决方案1】:

    嗯……我想我找到了解决办法:

    Public Function StripHtml(ByVal html As String) As String
        Dim htmlDoc As New HtmlDocument()
        htmlDoc.LoadHtml(html)
        Dim invalidNodes As HtmlNodeCollection = htmlDoc.DocumentNode.SelectNodes("//div|//font|//span|//p")
        For Each node In invalidNodes
            node.ParentNode.RemoveChild(node, True)
        Next
        Return htmlDoc.DocumentNode.WriteContentTo
    End Function
    

    我快到了... :P

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2012-02-24
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-04-13
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多