【发布时间】:2014-05-15 23:13:39
【问题描述】:
我正在使用python 和beautifulsoup 来刮一张桌子……我可以很好地处理我需要的大部分信息。我要抓取的内容的缩短表。
<tr> <td><a href="/wiki/Joseph_Carter_Abbott" title="Joseph Carter Abbott">Joseph Carter Abbott</a></td> <td>1868–1872</td> <td>North Carolina</td> <td><a href="/wiki/Republican_Party_(United_States)" title="Republican Party (United States)">Republican</a></td>
</tr>
<tr> <td><a href="/wiki/James_Abdnor" title="James Abdnor">James Abdnor</a></td> <td>1981–1987</td> <td>South Dakota</td> <td><a href="/wiki/Republican_Party_(United_States)" title="Republican Party (United States)">Republican</a></td> </tr> <tr> <td><a href="/wiki/Hazel_Abel" title="Hazel Abel">Hazel Abel</a></td> <td>1954</td> <td>Nebraska</td> <td><a href="/wiki/Republican_Party_(United_States)" title="Republican Party (United States)">Republican</a></td>
</tr>
http://en.wikipedia.org/wiki/List_of_former_United_States_senators
我想要姓名、描述、年份、州、政党。
描述是每个人页面上的第一段文字。我知道如何独立获取此信息,但我不知道如何将其与姓名、年份、州、政党集成,因为我必须导航到不同的页面。
哦,我需要将其写入 csv。
谢谢!
【问题讨论】:
-
您必须编写一些代码来读取这两个网页并将其中包含的信息结合起来。哦,将其写入 CSV。
标签: python csv beautifulsoup