【发布时间】:2010-07-03 17:59:18
【问题描述】:
我知道 html2text、BeautifulSoup 等实用工具,但问题是它们还会提取 javascript 并将其添加到文本中,因此很难将它们分开。
htmlDom = BeautifulSoup(webPage)
htmlDom.findAll(text=True)
或者,
from stripogram import html2text
extract = html2text(webPage)
这两个都提取了页面上的所有javascript,这是不受欢迎的。
我只是想提取可以从浏览器中复制的可读文本。
【问题讨论】:
标签: python html text-extraction