【发布时间】:2020-09-15 14:05:35
【问题描述】:
我正在使用 BeautifulSoup 从 HTML 文件中提取数据。我想获取两个标签之间的所有信息。这意味着如果我有这样的 HTML 部分:
<h1></h1>
Text <i>here</i> has no tag
<div>This is in a div</div>
<h1></h1>
如果我想要第一个 h1 和第二个 h1 之间的所有信息,输出将如下所示:
Text <i>here</i> has no tag
<div>This is in a div</div>
我尝试过 nextsibling 循环,但似乎总是有问题。 Beautifulsoup 中是否有一个命令可以简单地提取元素“A”和元素“B”之间的所有内容(文本、换行符、div、特殊字符)?
【问题讨论】:
-
需要更多的 sn-ps!不过说真的,当您提出问题时,您需要发布代码以便我们提供指导。
-
你是对的。我在手机上,我的电脑上没有互联网接入。我在俄勒冈州的火灾附近,所以一切都很糟糕。我只是想知道 beautifulsoup 中是否有为此的命令,或者我是否应该坚持抨击 pcregrep。
标签: python html beautifulsoup