【发布时间】:2012-02-05 23:34:56
【问题描述】:
这是我的 html 树
<li class="taf"><h3><a href="26eOfferCode%3DGSONESTP-----------" id="pa1">
Citibank <b>Credit Card</b> - Save over 5% on fuel | Citibank.co.in</a>
</h3>Get the IndianOil Citibank <b>Card</b>. Apply Now!
<br />
<a href="e%253DGOOGLE ------">Get 10X Rewards On Shopping</a> -
<a href="S%2526eOfferCode%253DGSCCSLEX ------">Save Over 5% On Fuel</a>
<br />
<cite>www.citibank.co.in/<b>CreditCards</b></cite>
</li>
我需要从这个 html 中提取
标签之前的行
line1:获取 IndianOil Citibank 卡。现在申请!
line2 : 获得 10 倍的购物奖励 - 节省超过 5% 的燃料
在 python 中应该怎么做?
【问题讨论】:
-
如果这不是唯一的情况并且您需要做更多这样的事情,请查看一些 (x)html 解析库。例如Beautiful Soup 或lxml。在标准库中,有minidom,但我不喜欢它,而且它可能无法处理错误的语法(在现实世界中你会发现很多)。
标签: python beautifulsoup lxml