【发布时间】:2023-04-10 06:37:01
【问题描述】:
BeautifulSoup 是否提供一种方法来获取标签的字符串索引或其在 HTML 字符串中的文本?
例如:
from bs4 import BeautifulSoup
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
</body>
</html>
"""
soup = BeautifulSoup(html_doc, 'lxml')
有没有办法知道html_doc 中的字符串索引是从soup.p (<p class="title"><b>The Dormouse's Story</b></p>) 开始的?或者它的文本 (The Dormouse's story) 从哪里开始?
编辑:soup.p 的预期索引为 63,即html_doc.index('''<p class="title"><b>The Dormouse's story</b></p>''')。其文本的预期索引为 83。我没有使用 str.index(),因为返回的索引可能与相关标签不对应。
【问题讨论】:
标签: python html string beautifulsoup