【发布时间】:2021-07-12 09:59:49
【问题描述】:
我有以下句子。如果句子有点或匹配的单词,我需要将句子分成多个句子。
句子 1:尝试序列化参数 http://uri.org/:Message 时出错。不应出现数据协定名称为“enumStatus:”的 InnerException 消息。
预期结果:
senetences = 1. There was an error while trying to serialize parameter http://uri.org/:vMessage.
2. The InnerException message with data contract name 'enumStatus:' is not expected.
句子 2:ORA-01756:引用的字符串未正确终止 ORA-06512:在模块 1 第 48 行 ORA-06512:在第 1 行
预期结果:
senetences = 1. ORA-01756: quoted string not properly terminated
2. ORA-06512: at module1, line 48
3. ORA-06512: at line 1
我正在使用下面的正则表达式来拆分句子。
sentences = re.split(r'(?<=\w\.)\s|ORA-[0-9]{1,8}', input)
这里的问题是,对于第一种情况,如果任何单词后跟点都可以正常工作。 对于第二种情况,我可以拆分句子。我有 2 个问题。
- 它正在删除整个匹配词“ORA-”。但我需要整个词。
- 我得到的是 4 个句子而不是 3 个句子。
- (first 为空,因为它有起始词 ORA-)
- 引用的字符串未正确终止
- 在模块 1 第 48 行
- 在 1 号线
在这种情况下我需要 3 句话。
任何帮助将不胜感激。
【问题讨论】: