【问题标题】:Safely remove children in a tag by beautifulsoup通过 beautifulsoup 安全地删除标签中的孩子
【发布时间】:2020-05-02 00:30:42
【问题描述】:

假设现在我有一个标签div 通过 findAll 在汤中获得。

div = <div>text1<span>text2<\span>text3</div>

请注意,我想保留一些外部结构。例如,div.previous_element 将连接到汤中的其他标签。现在我解开了跨度,以便

div.contents=['text1','text2','text3']

我想要的是:

  1. div.contents=['text1text2text3']
  2. div.string 不是无。
  3. 与汤的连接未切断(div.previous_element 也可以工作)

【问题讨论】:

  • 您能否提供所需输出的外观。
  • 我希望 div=
    text1text2text3
    。另外,div.string='text1text2text3'(不是没有)。

标签: python beautifulsoup


【解决方案1】:

试试这个。

from simplified_scrapy.simplified_doc import SimplifiedDoc
html='''<div>text1<span>text2<\span>text3</div>'''
doc = SimplifiedDoc(html)
div = doc.div
print (div)
print (div.text)

结果:

{'tag': 'div', 'html': 'text1<span>text2<\\span>text3'}
text1text2text3

可以获取SimplifiedDochere的例子

【讨论】:

    猜你喜欢
    • 2011-12-15
    • 2011-12-02
    • 2020-02-26
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-04-15
    • 2013-10-19
    相关资源
    最近更新 更多