【发布时间】:2019-03-13 11:58:22
【问题描述】:
我需要删除所有不在标签<p> 和</p> 之间的文本。每个单元格中可以有许多<p> 标签。 <p>之前和</p>之后的内容在每一行都不一样。
例子
<h1>Curly Krans Daggdroppar 30cm LED</h1><h2>Beskrivning</h2><div id="more_info_sheets" class="sheets align_justify"><div id="idTab1" class="rte"><div id="more_info_sheets" class="sheets align_justify"><div id="idTab1" class="rte"><p>En krans med en snygg och intressant design. </p><p>Kransen har 30st ej utbytbara små LED lampor.</p><p>Finns i tre olika färger, välj mellan, koppar, mässing och krom.</p></div></div></div></div>
应该是
<p>En krans med en snygg och intressant design. </p><p>Kransen har 30st ej utbytbara små LED lampor.</p><p>Finns i tre olika färger, välj mellan, koppar, mässing och krom.</p>
有人知道怎么做吗?
【问题讨论】:
-
你想达到什么目的?你的环境是什么?你想如何删除它?
-
我想删除所有 H1 和 H2 文本以及所有 div 标签。需要在 Notepad++ 或 Excel 中从 .csv 文件中完成。我的目标是只获得带有 p 标记的干净文本。
-
我可以使用 ^.*?(?=
) 删除第一个
之前的所有内容,但是如何删除最后一个之后的所有内容
? -
所以 stalk 正则表达式响应不是在标记上使用正则表达式。有更好的工具,例如 xPath。