【发布时间】:2023-03-03 00:39:02
【问题描述】:
我有一个文本文件类型:
[...演讲...]
NAME_OF_SPEAKER_1:[...演讲...]
NAME_OF_SPEAKER_2:[...语音...]
我的目标是隔离不同演讲者的演讲。因为每个发言者的名字总是用大写字母(名字+姓氏)表示,所以它们被清楚地识别出来。但是,在演讲中可以有大写字母的名词(不是人名),但实际上只有一个词长到足以让我发出问题(它有四个字母,说它是'ABCD')。我想用类似的东西来识别每个说话者名字的位置(我假设每个名字都至少有 3 个字母)
re.search('[A-Z^(ABCD)]{3,}',text_to_search)
为了排除特定(常量)单词“ABCD”。但是,该命令会识别该单词而不是排除它。关于如何克服这个问题的任何想法?
【问题讨论】:
标签: python regex regular-language