【发布时间】:2021-12-17 03:23:52
【问题描述】:
我正在尝试在 Snowflake 的视图中创建一个列,以替换我不关心的字符串之间的任何字符串。
这本质上是为了从文本中去除 html 格式。 举个例子:
<ul>
<li>Text I care about 1
<li>Text I care about 2</li>
<li>Text I care about 3</li>
</ul>
最终应该是这样的:
Text I care about 1
Text I care about 2
Text I care about 3
根据我看到的模式,我认为如果我可以消除任何以 < 开头并以 > 结尾的字符串,我应该能够达到我正在寻找的结果。
在不同网站的测试中,这似乎是一种表达方式
REGEXP_REPLACE(originaltext, '&lt.+?&gt;','') 应该可以工作,但是在 Snowflake 中尝试时,在某些情况下它似乎切断了最后一个“我关心的文本”,而在其他情况下根本没有显示任何结果。我不确定正在使用的正则表达式雪花版本中是否存在语法差异或其他问题,但我们将不胜感激。
【问题讨论】:
标签: sql regex snowflake-cloud-data-platform regexp-replace