【发布时间】:2014-09-09 22:36:27
【问题描述】:
我正在使用漂亮的汤从 html 页面中抓取数据,当我抓取数据时,我只剩下这个:
<tr>
<td class="main rank">1</td>
<td class="main company"><a href="/colleges/williams-college/">
<img alt="" src="http://i.forbesimg.com/media/lists/colleges/williams-college_50x50.jpg">
<h3>Williams College</h3></img></a></td>
<td class="main">Massachusetts</td>
<td class="main">$61,850</td>
<td class="main">2,124</td>
</tr>
这是我用来获取这个的 beautifulsoup 命令:
html = open('collegelist.html')
test = BeautifulSoup(html)
soup = test.find_all('tr')
我现在想操作这个文本以便它输出
1
Williams College
Massachusetts
$62,850
2,214
我很难为整个文档这样做,我有大约 700 个这样的条目。任何建议将不胜感激。
【问题讨论】:
标签: python beautifulsoup urllib