【发布时间】:2020-08-25 12:08:35
【问题描述】:
我对正则表达式模式很陌生。我很难解析文本文件并返回每个段落的匹配项。所以基本上每个段落都是独一无二的。
这是我的示例文本文件
A quick brown
fox jumps over
the lazy dog;
1234;
Here is
the second paragraph
123141
我希望 match[0] 是: #快速棕色 狐狸跳过 懒狗; 1234;
匹配[1] 为: #这是 第二段 123141
我试过了
regex = re.compile(r"(.*\n)\n", re.MULTILINE)
with open(file_dir, "r") as file:
matches = regex.findall(file.read())
print matches
但结果是 ['1234;\n']。它没有捕获整个段落,也没有捕获第二个段落。最有效的方法是什么?
【问题讨论】:
-
你到底想要什么? 所以基本上每个段落都是独一无二的 是分隔符吗?请在没有 cmets 的情况下提供更通用的输入文件详细信息