【发布时间】:2016-08-22 02:52:40
【问题描述】:
我有一个这样的 HTML 结构
<p class="title">
<a href="abc.com">
Story
</a>
<span class="domain">
<a href="xyz.com">comments</a>
</span>
</p>
我想提取第一个锚标签的文本,即Story
这是我如何使用Beautifulsoup 从锚标签中提取文本
soup = BeautifulSoup(html, 'html.parser')
soup.prettify()
for link in soup.find_all(class_='title'):
print link.findNext('a').text
和输出:
Story
Comments
但我只想提取第一个锚标记的文本,即Story。
如何在 python 中使用 BeautifulSoup 做到这一点?
【问题讨论】:
标签: python beautifulsoup