【发布时间】:2013-08-14 05:37:28
【问题描述】:
我是正则表达式的新手。我只想从<firstpar> 中捕获文本部分,或者删除所有<asmbly> 及其所有子节点和值。谁能告诉我如何做到这一点。以下是 xml 字段的快照。谢谢。
<?xml version="1.0" encoding="UTF-8"?>
<firstpar>
<thumbcred>Sample 1 thumbcred</thumbcred>
<asmbly>
<caption>
<p><work ty="drawing">Two Fabulous Animals</work>Sample 1 <e> sample 1caption </e></p>
</caption>
<credit>Paul Miller/AP</credit>
<asset id="126099" hgt="450" wdth="289" tmstp="24-OCT-08"
bintype="2" filename="images/sample126099.jpg" source="eb" bighgt="1600"
bigwdth="1029" bigfilename="botany003.jpg"
bigdeployfullfilename="/eb-media/99/126099-050-CAD1EF0A.jpg"
/>
<copyright>Copyright © 1994-2013 Encyclopædia Britannica, Inc.</copyright>
</asmbly>
Sample firstpar text <e>Sample e</e> just some
text <sub>sample sub </sub><e>sample e text again</e> more text with sup sub e.
</firstpar>
【问题讨论】:
-
我不是这方面的专家,但我认为您可能需要一个 xml 解析器,而不是正则表达式
-
使用 XML 解析库,NOT 正则表达式。 XML 是一种上下文无关语言,而不是常规语言。
-
有很多好的(免费的)XML 解析器可用。您使用什么语言,以便我们为您指明正确的工具以及如何使用它?
-
我正在尝试在 c# 中获取
的文本部分。您可以推荐一个好的 xml 解析器吗?谢谢。 -
为什么不能使用 LINQ to XML?