【发布时间】:2011-08-16 01:50:46
【问题描述】:
from BeautifulSoup import BeautifulSoup
html = "<html><p>Para 1. Words</p><p>Merge. Para 2<blockquote>Quote 1<blockquote>Quote 2</p></html>"
print html
soup = BeautifulSoup(html)
print u''.join(soup.findAll(text=True))
这段代码的输出是“Para 1 WordsMerge.Para 2Quote 1Quote 2”。
我不希望第一段的最后一个词与第二段的第一个词合并。 例如。 “第 1 段单词合并。第 2 段引用 1 引用 2”。 这可以使用 BeautifulSoup 库来实现吗?
【问题讨论】:
标签: python html beautifulsoup