【发布时间】:2013-12-21 15:45:49
【问题描述】:
如何解析带有可变数量的封闭双引号的字符串中的文本?
比如我可能会遇到这个字符串:
"""The Cellar """"Serene"""" 16-Piece Glassware Set"""
或者这个字符串,等等……:
""The Cellar """Serene""" 16-Piece Glassware Set""
我想显示这个字符串:
The Cellar "Serene" 16-Piece Glassware Set
似乎正则表达式在这里是一个理想的解决方案,因为有一个模式。在所有情况下,前 n 个双引号定义了模式。我想输出字符串的余额。
【问题讨论】:
-
你使用什么语言?
-
为什么第二个例子
Serene后面有四个引号?错字? -
我看不懂你的模式!..你能解释一下吗
-
非常感谢。至于语言,理想情况下我可以使用支持正则表达式的 Apache Hive(Hadoop 生态系统的一部分)。至于模式......在上面的例子中,前 n 个双引号定义了模式。在示例 1 中,有 3 个,所以我们在任何地方看到三个引号,它们都应该被删除。在示例 2 中,有两个,所以我们在任何地方看到两个(由外而内),都应该删除它们。我也刚刚编辑了示例 2,因为我没有删除最后一个引号(对不起)。
-
我还可以通过 Python 流式传输字符串,在这里我有更多的灵活性。
标签: regex