【发布时间】:2013-01-29 15:42:13
【问题描述】:
我的 HTML 文本看起来像以下结构的许多实例:
<DOC>
<DOCNO> XXX-2222 </DOCNO>
<FILEID>AP-NR-02-12-88 2344EST</FILEID>
<HEAD>Reports Former Saigon Officials Released from Re-education Camp</HEAD>
<TEXT>
Lots of text here
</TEXT>
</DOC>
我需要做的是索引每个结构,包括 DocNo、标题和文本,以便稍后进行分析(标记化等)。
我正在考虑使用 BeautifulSoup,这是我目前拥有的代码:
soup = BeautifulSoup (file("AP880212.html").read())
num = soup.findAll('docno')
但这只会给我以下格式的结果:
<docno> AP880212-0166 </docno>, <docno> AP880212-0167 </docno>, <docno> AP880212-0168 </docno>, <docno> AP880212-0169 </docno>, <docno> AP880212-0170 </docno>
如何提取 中的数字?并将它们与标题和文本链接?
非常感谢,
萨沙
【问题讨论】:
标签: python html xml xml-parsing beautifulsoup