【发布时间】:2017-03-30 20:29:09
【问题描述】:
我被困在使用 BS4 从 p 标签中提取文本的当前问题上。
我需要提取的具体是包含文本的p标签,但还有其他p标签存在。
我目前拥有的是:
soup2 = BeautifulSoup(response2, 'html.parser')
div = soup2.find("div", {"id": "body"}).find_all('p')
print (div[5])
我知道 find_all 创建了一个包含所有 p 标签的列表,并且我可能会找到我正在寻找的 p 标签的列表索引。但是,这会带来一个问题,因为我在具有与图片中类似的 HTML 布局的其他页面上多次执行此提取。例如,并非每个 find_all 列表都会将我要查找的 p 标记文本作为第 5 个索引。
有什么建议吗?
【问题讨论】:
-
屏幕截图中的
<p>元素没有识别特征,即没有类或id 或任何其他属性。那么如果<p>元素并不总是第5 个索引,你如何确定它想要哪个?是否总是在<p>元素之后以“Last statement:”作为文本? -
如果我可以用另一种方式表达,当您查看这些文档中的任何一个时,页面的哪个功能可以识别您想要的段落?
标签: python html beautifulsoup