【发布时间】:2016-01-10 18:27:03
【问题描述】:
我有一个简单的 4x2 html 表,其中包含有关属性的信息。
我正在尝试提取值1972,它位于Year Built 的列标题下。如果我找到所有标签td,如何提取包含文本Year Built 的标签的索引?
因为一旦找到该索引,我只需添加 4 即可获取包含值 1972 的标签。
这里是html:
<table>
<tbody>
<tr>
<td>Building</td>
<td>Type</td>
<td>Year Built</td>
<td>Sq. Ft.</td>
</tr>
<tr>
<td>R01</td>
<td>DWELL</td>
<td>1972</td>
<td>1166</td>
</tr>
</tbody>
</table>
例如,我知道如果我的输入是索引2,而我的输出是该标签的文本Year Built,我可以这样做:
from bs4 import BeautifulSoup
soup = BeautifulSoup(myhtml)
td_list = soup.find_all('td')
print td_list[2].text
但是如何使用文本输入Year Built 来获取索引2 的输出?
【问题讨论】:
标签: python html web-scraping beautifulsoup