【发布时间】:2013-03-25 00:43:00
【问题描述】:
我需要将给定的文件解析为字符串列表, 给定的文件样式是这样的:
<DOC>
<DOCNUM> NUMBER </DOCNUM>
<DOCTYPE> TYPE </DOCTYPE>
<HEADER>
&SOMETHING
</HEADER>
<BODY>
<HEADLINE>
SOME TEXT
</HEADLINE>
TEXT
TEXT
TEXT
<TEXT>
<P>
INPUT TEXT1
</P>
<P>
INPUT TEXT2
</P>
.
.
.
</TEXT>
</BODY>
</DOC>
我需要列出 P 标签外观内的所有 TEXTi 实例。 我尝试使用 lxml xml 解析器执行此操作,但因为 &something 在 xml 格式中是不可接受的,所以它不起作用... 我尝试使用 html 解析器,但我没有弄清楚如何让它工作。
有没有人知道我获取所需列表的好方法?
【问题讨论】: