【发布时间】:2013-02-14 07:35:36
【问题描述】:
我有一个解析一些 xml 的脚本。 XML 包含:
<SD TITLE="A" FLAGS="" HOST="9511.com">
<TITLE TEXT="9511 domain"/>
<ADDR STREET="Pmb#400, San Pablo Ave" CITY="Berkeley" STATE="CA" COUNTRY="US"/>
<CREATED DATE="13-Oct-1990" DAY="13" MONTH="10" YEAR="1990"/>
<OWNER NAME="9511.Org Domain Name Proxy Agents"/>
<EMAIL ADDR="proxy@9511.org"/><LANG LEX="en" CODE="us-ascii"/>
<LINKSIN NUM="75"/><SPEED TEXT="3158" PCT="17"/>
<CHILD SRATING="0"/>
</SD>
<SD>
<POPULARITY URL="9511.com/" TEXT="1417678" SOURCE="panel"/>
</SD>
如何获取标签的'TEXT'属性值(在我的例子中是1417678)?我正在使用正则表达式+Python。正则表达式字符串:
my_value = re.findall("POPULARITY[^\d]*(\d+)", xml)
我收到了“9511”,但我需要“1417678”。
【问题讨论】:
-
请使用 XML 解析器。 Python默认应该有xml模块,如果不喜欢可以安装其他类似的模块。
-
它更容易,谢谢。我只想知道如何修复我的正则表达式。
标签: python regex python-2.7 xml-parsing