【发布时间】:2021-02-14 07:38:52
【问题描述】:
我正在抓取一些网页并尝试从所有网页中获取简单的文本
<p> </p>
标签。在一个特定的例子中,我遇到了一个带有类的“p”标签:
<p class="SimpleBlock-module_p__Q3azD "> Some text here. </p>
现在使用一个简单的:
Text = soup.findAll("p")
结果:
Text = SimpleBlock-module_p__Q3azD Some text here.
如何只获取上面Text中不包括类名的文本部分。
我想要一个适用于所有情况的通用解决方案,无论“p”标签中是否存在类。
我在 Windows 10 上使用 Python3、请求和 BeautifulSoup4。
【问题讨论】:
标签: python beautifulsoup screen-scraping