【发布时间】:2018-01-04 01:48:44
【问题描述】:
我想在 div 标签中提取一段文本。我看过几篇讨论各种 div 属性的帖子,但我想要的标签没有属性 - 它只是
。
以下是 html 的摘录。上面和下面有几十个div标签,但只有这一个只是
。
<div>
<!-- Some text. -->
<i>
[Text I want block 1]
</i>
text I want 1
<br/>
text I want 2
<br/>
text I want 3
<br/>
<br/>
</div>
但是,任何带有“div”的 find 方法都会返回太多。我尝试了以下方法:
1) 字符串和标签搜索拾取每个包含 div 的标签
soup.find("div")
soup.div
3) 隔离父级,然后在其中搜索的 div 仍然返回太多。
divParent = soup.find("div", class_="col-xs-12 col-lg-8 text-center")
divParent.find("div")
有什么想法吗? div 似乎太常见的标签/字符串无法隔离。
【问题讨论】:
-
你不能直接从 div 获取元素 - 也许它们有有用的属性。你可以试试css选择器
selector('div i')。您还可以手动计算 div 并使用 index - 即。获取第三个 divfind_all('div')[2] -
最好在问题中添加真实的url,然后我们可以看到问题和测试解决方案。
标签: html python-3.x beautifulsoup