【发布时间】:2023-03-30 04:07:01
【问题描述】:
我希望从 HTML 文档中替换任何不是 HTML 标记的内容。所以,基本上试图摆脱文档中的所有文本。
我有下面的正则表达式来从字符串中删除所有 HTML,但在相反的情况下需要帮助。
$string =~ s/<[^>]+>//g;
谢谢。
【问题讨论】:
-
NoooooooOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOoooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo stackoverflow.com/questions/1732348/…
-
请不要这样做。这是去madness的路
-
什么不是 HTML 文档中的 HTML 标签?如果它的格式正确,那么除了 cmets 之外的所有东西都会放在某种标签内。您是在正文内而不是在另一个标签内寻找文本吗?
-
@Ethan Brown:是的,希望消除不在 HTML 标记中的文本。
-
你没有真正回答我的问题。例如,如果这是您的文档:
<html><body>Here's some <b>bold</b> text!</body></html>,您是否在寻找字符串“Here's some”和“text!”?因为这些字符串都不在 HTML 标记之外(它们都在<body>标记内)。