【发布时间】:2017-05-22 09:49:11
【问题描述】:
我正在尝试使用 UIMA RUTA 2.6.0 匹配一些多字标记。还有一些短语彼此部分相等,例如。 G。在同一个文件中,我有以下条目:“包括”、“包括”、“在这个”、“在”。
在我的输入文件中有下一段文本:“1. “代理或雇员”包括董事...”。显然,有一个“includes the”匹配,但如果wordlist中存在其他以上3个条目,则找不到匹配项。此外,单词列表中这些条目的排序不依赖于匹配成功:它总是失败。
而且这个问题不仅发生在单个文件中。所以,问题是:我该如何解决它?可能是 RUTA 注释器的一些设置?
【问题讨论】:
-
这很可能是由单词列表中的空格引起的。尝试删除所有这些。如果可行,您可以使用配置参数 dictRemoveWS 解决它。
-
@peter,这是不寻常的逻辑,但它有效。非常感谢!
-
是的,这听起来不合理,但单词表也可以应用于空格模式,因此通常不能忽略它们。也许我以后把参数默认设置为true。