【发布时间】:2016-01-10 01:58:30
【问题描述】:
我想从文件(1,5gb 文件)中即时解析 xml,如下所示:
<product product_id="x" name="x" sku_number="x">
<category>
<primary>x</primary>
<secondary>y</secondary>
</category>
<URL>
<product>URL__I_WANT_TO_PULLOUT</product>
<productImage>x</productImage>
</URL>
<description>
<short>x</short>
<long>x</long>
</description>
</product>
我正在使用lxml.etree.iterparse 喜欢:
for event, elem in ET.iterparse(f, events=('end',), tag='product'):
save_product(elem)
我从 xml 节点获取所有必需的值。我唯一无法拔出的节点是URL>product(它只是空的)。我认为这是由相同的标签名称引起的。除了iterparse,还有什么方法可以即时解析xml?
【问题讨论】:
-
如果您更改样品的名称,它会起作用吗?
-
我没试过,但它是外部数据馈送,所以我不负责更改它
标签: python xml django scrapy lxml