【发布时间】:2026-02-17 02:15:01
【问题描述】:
目前我正在尝试从网页中读取两个标签之间的文本。
这是我目前的代码:
soup = BeautifulSoup(r.text, 'lxml')
text = soup.text
tag_one = soup.select_one('div.first-header')
tage_two = soup.select_one('div.second-header')
text = text.split(tag_one)[1]
text = text.split(tage_two)[0]
print(text)
基本上,我试图通过识别它们的标签来获取第一个和第二个标题之间的文本。我打算通过拆分第一个标签和第二个标签来做到这一点。 这甚至可能吗?有没有更聪明的方法来做到这一点?
示例: 如果你看:https://en.wikipedia.org/wiki/Python_(programming_language)
我想找到一种方法来提取“历史”下的文本,方法是识别“历史”和“特征和哲学”的标签,并通过这些标签进行拆分。
【问题讨论】:
-
您能否编辑您的问题以包含测试输入和预期输出?我不完全清楚你要做什么。
-
@cody 我现在试过了
标签: python python-3.x split beautifulsoup