【问题标题】:Fuziness In UIMA rutaUIMA ruta 中的模糊性
【发布时间】:2018-01-24 07:11:30
【问题描述】:

在单词匹配的情况下是否有任何模糊选项,或者忽略一些特殊情况。

例如:

STRINGLIST AMIMALLIST = {"LION","TIGER","MONKEY"};
DECLARE ANIMAL;


Document {-> MARKFAST(ANIMAL, AMIMALLIST, true)};

我需要将单词与列表匹配,以防遇到一些特殊字符,例如

Tiger-MONKEY$

根据documentation有不同的评估员知道如何使用吗? 或者我可以使用 SCOREMARKSCORE

【问题讨论】:

  • @PeterKluegl 你能帮忙吗?
  • 是的,我会在接下来的几天里添加答案。

标签: apache nlp uima fuzzy-logic ruta


【解决方案1】:

这里有几个方面需要考虑。一般来说,UIMA Ruta 不支持字典查找中的模糊性。 SCOREMARKSCORE 是语言元素,可用于在顺序规则中引入一些启发式评分(不是真正的模糊性)。在您在问题中提供的示例中,您实际上并不需要模糊匹配。

UIMA Ruta 中的字典查找适用于 RutaBasic 注释。这些注释由 UIMA Ruta 自己自动创建和维护(不应直接由其他分析引擎或规则更改)。 RutaBasic 注释代表注释所指的最小片段。默认情况下,RutaEngine 的播种器为单词(W -> CWSWCAP)和许多其他标记(如 SPECIAL)创建注释 - 或 $。这意味着还有一个 RutaBasic 注释,并且字典查找可以区分这些标记。因此,Tiger 和 Monkey 应该被注释,并且您问题中的示例应该实际工作(我测试过)。您可能需要一些后期处理才能将SPECIAL 包含在ANIMAL 中。

我不得不提一下,在字典查找(Multi Tree Word List,TRIE)中还有一个使用编辑距离的功能。然而,这个功能已经好几年没有维护了。它还应该支持特定替换的不同权重。我不知道这算不算模糊。

免责声明:我是 UIMA Ruta 的开发人员

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-09-13
    • 2018-08-27
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多