【发布时间】:2019-03-28 08:34:07
【问题描述】:
我需要在python中解析脏的html字符串,我需要消除所有旁边有兄弟标签的文本。
比如我需要转换这个html。
<p class="se_textarea">
x3C!-- SE3-TEXT { -->
<span>
<b>식탁등/카페조명/매장/포인트조명/pc방/티 테이블 등등</b>
nnnnnnn
<br>
</span>
<span>
<b>어느곳에 설치 하셔도 예쁜.. </b>
<br>
</span>
</p>
到这个 html。
<p class="se_textarea">
<span>
<b>식탁등/카페조명/매장/포인트조명/pc방/티 테이블 등등</b>
<br>
</span>
<span>
<b>어느곳에 설치 하셔도 예쁜.. </b>
<br>
</span>
</p>
由于x3C!-- SE3-TEXT { --&gt; 是<span> 的兄弟,而nnnnn 是<b>tag 的兄弟,我需要删除此文本,而식탁등/카페조명/매장/포인트조명/pc방/티 테이블 등등 是<b> 标记中的唯一文本,我不需要去掉它。
【问题讨论】:
-
要删除的文本旁边的兄弟标签是什么?
-
@Maaz 这取决于它可能是 div span 或 p
-
这不是那么容易理解的。在您的示例中,您为什么要删除
nnnnnnn?因为下一个标签是<br>? -
@Maaz 因为我需要显示那些 html 而 nnnnn 是我不需要的脏数据
-
是的,但是按照逻辑方法,您是如何找到它的?我的意思是,为什么是
nnnnnnn而不是식탁등/카페조명/매장/포인트조명/pc방/티 테이블 등등
标签: python regex beautifulsoup