【问题标题】:HTMLAgilityPack - Remove Node with out stripping the inner textHTMLAgilityPack - 删除节点而不剥离内部文本
【发布时间】:2013-09-11 07:10:59
【问题描述】:

我的html内容是

<a href="#asdf">asdf</a>
<H5 align="left"><A href="#d570525d497.htm#toc">Table 
of Contents</A><br></H5>

我正在使用 HTML Agility Pack 来加载 html。我想找到&lt;a&gt; 节点并删除该节点而不删除其内部文本,如下所述

asdf
<H5 align="left">Table 
of Contents<br></H5>

我正在使用下面的代码,

var htmlDocument = new HtmlDocument();
htmlDocument.LoadHtml(htmlPage);
var Nodes = htmlDocument.DocumentNode.SelectNodes("//a");
foreach (var Node in Nodes)
{
    Node.InnerText.Trim();
}

它不工作。代码有问题?

【问题讨论】:

  • 我相信,这是算法。您应该获取内部 html 并将其放置到父级。

标签: c# html-agility-pack


【解决方案1】:

从父节点中删除节点,同时保留大子节点

foreach (var Node in Nodes)
{
    Node.ParentNode.RemoveChild(Node, true); //<-- keepGrandChildren
}

var newhtml = htmlDocument.DocumentNode.OuterHtml;

输出:

asdf
<h5 align="left">Table 
of Contents<br></h5>

【讨论】:

  • 节点没有父节点可以使用Node.ParentNode.RemoveChild(Node, true);
  • @user2729272 至少都在&lt;html&gt;。试一试怎么样? (顺便说一句:它适用于您的示例。我在答案中发布了输出)
  • 您发布的示例字符串将被赋予 Document 类型的“父”节点...所以从 Node.ParentNode 的角度来看,它会起作用。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2013-01-11
  • 1970-01-01
  • 1970-01-01
  • 2023-03-13
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多