【发布时间】:2019-10-30 19:31:48
【问题描述】:
我必须从带有文本边界的网站中提取文本,即包含在标签内。
我想过滤掉所有不需要的标签,例如
'style', 'script', 'head', 'title', 'meta', '[document]'
并从其余标签中获取文本
例如:
HTML
<script>console.log('hello');</script>
<span>Header</span>
<p>Some paragraph</p>
输出
['Header', 'Some paragraph']
我知道我能做到
soup.findall('span', text=True)
p 和其他包含文本的标签以此类推
这效率不高,因此我需要一种替代方法来过滤掉所有不需要的元素,然后获取文本。
【问题讨论】:
-
你看过this问题帖吗?
-
@debuggingXD 这很好,但不能解决我的问题。
标签: python web-scraping beautifulsoup