【发布时间】:2016-05-30 00:28:55
【问题描述】:
这就是我正在解析的 HTML 的样子。它都在一个表中并且被重复多次,我只想要 div 内的href 属性值,属性为class="Special_Div_Name"。然后所有这些 div 都在表格行内,并且有很多行。
<tr>
<div class="Special_Div_Name">
<a href="something.mp3">text</a>
</div>
</tr>
我想要的只是以“.mp3”结尾的href 属性值,它们位于具有class="Special_Div_Name" 属性的div 内。
到目前为止,我能够想出这段代码:
download = soup.find_all('a', href = re.compile('.mp3'))
for text in download:
hrefText = (text['href'])
print hrefText
此代码当前打印出页面上以“.mp3”结尾的每个href 属性值,并且非常接近于我想要的。只是我只想要那个 div 类中的“.mp3”。
【问题讨论】:
标签: python html python-2.7 web-scraping beautifulsoup