【发布时间】:2017-05-30 04:47:15
【问题描述】:
我正在尝试使用 BeautifulSoup 从带有流派列表的演出指南中抓取一些文本。我对此完全陌生,我发现我可以返回一个流派列表和完整的演出标题列表,但当然我只想返回与特定类型相关的演出标题(然后转到下一个流派并选择它的演出标题等)演出指南的源代码如下:
<h3>indie</h3>
<span class="gig-title"><a href="/gig/BandA">BandA</a></span>
<span class="gig-title"><a href="/gig/BandB">BandB</a></span>
<span class="gig-title"><a href="/gig/BandC">BandC</a></span>
<h3>jazz</h3>
<span class="gig-title"><a href="/gig/BandD">BandD</a></span>
<span class="gig-title"><a href="/gig/BandE">BandE</a></span>
我可以通过以下方式找到所有类型和演出标题:
genres = soup.find_all("h3")
for genre in genres:
titles = soup.find_all("span","gig-title")
for title in titles:
gig = title.a.string
但是,我只想返回文本:“BandA”、“BandB”、“BandC”——这是两个 h3(流派)标签之间的文本,然后再转到下一个流派。
我该如何解决这个问题?
【问题讨论】:
标签: python web-scraping beautifulsoup python-3.6