【发布时间】:2013-06-12 18:25:37
【问题描述】:
我一直在尝试解析存储在<td>标签之间的文本元素,例如:
<tr>
<td>Trading Hours</td>
<td><b>Monday</b> <br />
London - 23:00 Sunday - 23:00 Monday<br />
New York - 18:00 Sunday - 18:00 Monday<br />
Chicago - 17:00 Sunday - 17:00 Monday<br />
<br />
<b>Tuesday-Friday</b> <br />
London - 01:00 - 23:00<br />
New York - 20:00 - 18:00<br />
Chicago - 19:00 - 17:00<br />
</td>
</tr>
在这个简单的例子中,只有 2 个 <td> 标签,假设变量 tr 存储整个 html 代码块。我提取文本的逻辑如下(没有任何<tr> 或<br> 标签):
for td in tr.findAll('td'):
row.append((td.find('td', text = True)).strip().strip('\n'))
问题:我的for 循环可以识别第一个<td> 标记,但不能识别第二个。我该如何改进?
【问题讨论】:
-
Parsing HTML Python 的可能副本。澄清我是否错了。
标签: python beautifulsoup