【发布时间】:2021-08-06 19:45:04
【问题描述】:
我对正则表达式还是很陌生,所以我将不胜感激。 我正在尝试使用正则表达式在使用 CLAWS7 标记集进行词性标记的文本语料库中查找特定的语法模式。 这是一个示例:
Ya_UH and_CC then_RT uhm_NN1 we_PPIS2 wrote_VVD in_RP but_CCB already_RR taken_VVN up_RP that_DD1 day_NNT1 that_CST we_PPIS2 wanted_VVD actually_RR they_PPHS2 said_VVD still_RR available_JJ you_PPY know_VV0 so_RR by_II that_DD1 time_NNT1 we_PPIS2 we_PPIS2 write_VV0 in_II our_APPGE letter_NN1 two_MC weeks_NNT2 later_RRR already_RR taken_VVN up_RP Quite_RG good_RR uh_UH P ICE-SIN: S1A-001#74:1:B Ask_VV0 her_PPHO1 I_PPIS1 left_VVD my_APPGE house_NN1 at_II one_MC1 met_VVD PRO_NN1 in_II school_NN1 at_II two_MC Ya_PPY so_RR waited_VVD you_PPY know_VV0 they_PPHS2 say_VV0 half_DB hour_NNT1 later_RRR And_CC and_CC it_PPH1 was_VBDZ still_RR 下毛毛雨_JJ 和_CC 下雨_VVG
我正在寻找的模式是\w*\_V.*?(= 每个动词)的每个实例,不是前面有代词。代词可以有这些标签:
_PN _PN1 _PNQO _PNQS _PNQV _PNX1 _PPGE _PPH1 _PPHO1 _PPHO2 _PPHS2 _PPIO1 _PPIO2 _PPIS1 _PPIS2 _PPX1 _PPX2 _PPY
在示例中,所需的正则表达式应理想匹配:
taken_VVN
met_VVD
Ask_VV0
waited_VVD
raining_VVG
使用否定的lookbehind,我设法创建了以下表达式,它只匹配前面没有_PPIS2标签的动词:
(?<!\_PPIS2)\s\w*\_V.*?
如何将其扩展到所有其他代词标签?我尝试了下面的表达式,但它们要么根本不匹配任何东西,要么匹配错误的实例。
(?<!\_P.*)\s\w*\_V.*? (no match)
(?<![\_P.*])\s\w*\_V.*? (wrong results)
任何想法或解释将不胜感激。
【问题讨论】:
-
我正在使用 Sublime Text 3。
-
试试
\b(?:[^\W_]+_[^\W_]+ )?(?<!_PN |_PN1 |_PNQ[OVS] |_PNX1 |_PPGE |_PPH1 |_PPHO[12] |_PPHS2 |_PPIO[12] |_PPIS[12] |_PPX[12] |_PPY )[^\W_]*_V\w*,见demo。 -
我已经编辑了帖子;很抱歉造成混乱。
标签: regex tags linguistics negative-lookbehind