【发布时间】:2012-03-29 05:42:03
【问题描述】:
我有一个我正在自己解析的文件。每次我发现“”时,我都会像这样拆分字符串:
xml = file.split("[<>]");
这会给我标签、数据和结束标签。
一旦完成,我会确定它是什么类型的标签并以不同的方式处理它。在它是一个项目标签的情况下,它有一个描述。像这样:
<description>
<![CDATA[
<img width="460" height="259" src="http://www.cbc.ca/gfx/images/news/topstories/2012/03/28/hi-parliament-stop-852-7931-6col.jpg"><br/><p>Finance Minister Jim Flaherty's budget will take the shine off what critics call MPs' gold-plated pensions, reports Greg Weston for CBC News.</p>
]]>
</description>
这里的问题是它会在所有“”上分开,所以我正在寻找的描述部分会丢失。
如何绕过描述以及我正在搜索的其他标签,其中包含多个我不关心的“”? (没有围绕开始标签和结束标签的那些?
【问题讨论】:
-
如果这实际上是 XML,为什么不使用 XML 解析器?
-
我想自己学习如何做......思考并自己解析它
-
为什么不尝试标准的 XML 解析器?
-
@BlueMonster:从根本上说,使用正则表达式解析 XML 是个坏主意。我相信您可以了解更多富有成效的内容。
-
谢谢...但是...我不是在向您询问我应该和不应该将时间花在什么方面的建议...我是在询问对特定 Q 和我被困在的一个问题......更具体地说是对解决方案的想法