【发布时间】:2016-11-12 10:26:47
【问题描述】:
我想提取特定 HTML 标记之间的所有 HTML。
<html>
<div class="class1">Included Text</div>
[...]
<h1><b>text</b></h1><span>[..]</span><div>[...]</div>
[...]
<span class="class2">
[...]</span>
所以想在 class1 div 和 class2 span 之间查找所有 HTML(标签和值)。
Included Text
<h1><b>text</b></h1><span>[..]</span><div>[...]</div>
HTML 文件中也有多次出现,所以我想将它们全部匹配。这就是我的意思:
<html>
(first occurrence)
<div class="class1">Included Text</div>
[...]
<h1><b>text</b></h1><span>[..]</span><div>[...]</div>
[...]
<span class="class2">
[...]</span>
(2nd occurrence)
<div class="class1">Included Text</div>
[...]
<h1><b>text</b></h1><span>[..]</span><div>[...]</div>
[...]
<span class="class2">
[...]</span>
(third occurrence)
<div class="class1">Included Text</div>
[...]
<h1><b>text</b></h1><span>[..]</span><div>[...]</div>
[...]
<span class="class2">
[...]</span>
</html>
我一直在使用 Beautifulsoup 4 寻找答案。但是,所有问题/答案都与提取文本之间的值有关,但这不是我想要的。我还想知道 Beautifulsoup 是否可以做到这一点,或者我是否必须改用正则表达式。
【问题讨论】:
标签: python beautifulsoup