【发布时间】:2019-03-28 18:27:16
【问题描述】:
尝试将首字母缩略词与其含义相匹配 - 首字母缩略词和含义都在同一个文档中,并且通常彼此相距不远。
例如对于这个文本示例:
(b) 代表两股 A 类股票(每一股,“ADS”)的每一股美国存托股份,在紧接生效时间之前已发行和流通(代表除外股份的 ADS 除外,如果有的话)应被注销换取每 ADS 无息收取 12.25 美元现金的权利(“每 ADS 合并对价”)(减去每 ADS 取消费用 0.05 美元),根据存款协议中规定的条款和条件支付,以及每此类 ADS 所代表的 A 类股份应被注销并不复存在,以换取存托人作为其登记持有人的权利,以收取每股合并对价,存托人将分配给此类 ADS 的持有人根据本协议和存款协议中规定的条款和条件进行的每 ADS 合并对价(每 ADS 取消费用减去 0.05 美元);但本协议与押金协议发生冲突时,以本协议为准;
首字母缩略词是“ADS”,其含义是“美国存托股票”。
我开始构建一个基于对首字母缩写词进行标记的正则表达式 - 所以它看起来像这样 "[A].+?[D].+?[S].+?\b" 并且适用于上面的示例,但我正在寻找更多 - “python-y” 这样做的方式是因为我看到的首字母缩略词类型不同。
例子:
1)根据本协议中规定的条款和条件,并根据开曼群岛公司法(2018 年修订)(“CICL”)- 将匹配CLCI而不是CICL
2) 公司 SEC 报告中包含或以引用方式并入公司 SEC 报告的每份合并财务报表(包括在每种情况下的任何附注)均根据美国公认会计原则 (“ GAAP ”) - 大写字母与小写字母,也想加上美国。
【问题讨论】:
-
您知道缩写词的所有潜在变化吗?我假设通过变体,您也不会将首字母缩略词变形为复数“ADS”
-
我所说的变体只是指精确的“逐字逐句”和不是的变体。我只需要检测“ADS”是“美国存托股份”,这样我看到“ADS”的每个其他地方我都可以做一些神奇的 CSS 来悬停它以显示匹配。所以我可以找到原始的“ADS”——它只会出现在引号中一次,并且只需要真正关注该索引之前的文本即可找到我的匹配项。
-
我想你写一些查询和废弃 Acronym Finder 的东西的压力会更小。
-
@accdias 但是例如 ADS 返回 183 个结果,所以我需要遍历这些结果,看看哪些结果最接近我已经尝试从“ADS”之前的文本中提取的文本,并且“CICL”或“CLCI”没有返回我要查找的结果
-
确实,但编写类似的程序仍然比尝试创建一个匹配您将拥有的每个案例的正则表达式更容易。