【问题标题】:Dictionary in UIMA RUTA in EclipseEclipse 中 UIMA RUTA 中的字典
【发布时间】:2020-05-01 05:51:56
【问题描述】:

我是 UIMA Ruta 和 Eclipse 的新手。也许你们中的一些人处理过注释。请告诉我“字典”这个词在这种情况下是什么意思。提前致谢!

【问题讨论】:

    标签: eclipse uima ruta


    【解决方案1】:

    我认为您实际上指的是 UIMA 的 Dictionary Annotator。基本上,它用字典条目注释文档中的单词。详情请见User Guide

    【讨论】:

      【解决方案2】:

      在 UIMA Ruta 的上下文中,字典只不过是一个单词列表:一种用于快速注释在命名资源中声明的文本项的外部资源。 这是一个例子:

      WORDLIST FirstNameList = 'FirstNames.txt';
      DECLARE FirstName;
      Document{-> MARKFAST(FirstName, FirstNameList)};
      

      更多信息请参考documentation

      【讨论】:

        【解决方案3】:

        在 Uima Ruta 中,字典的意思是 WordlistWordtable

        单词表:

        WORDLIST FirstNameList = 'FirstNames.txt';
        DECLARE FirstName;
        Document{-> MARKFAST(FirstName, FirstNameList, true, 2)};
        

        此规则注释文档内列表“FirstNameList”中列出的所有名字并忽略 大小写,如果单词的长度大于2。

        WORDTABLE:

        WORDTABLE TestTable = 'TestTable.csv';
        DECLARE Annotation Struct(STRING first);
        Document{-> MARKTABLE(Struct, 1, TestTable, true, 4, ".,-", 2, "first" = 2)};
        

        在本例中,搜索整个文档以查找所有出现的第一个条目 给定表“TestTable”的列。对于每次出现,Struct 类型的注释是 已创建,其特征“第一”填充第二列的条目。此外,该案 如果单词的长度超过 4,则忽略该单词。此外,忽略字符 '.'、',' 和 '-', 但最多两个。

        当我们需要使用多个词表时 - 使用 TRIE 操作 来提高流程的性能。

        Document{->TRIE("FirstNames.txt" = FirstName, "Companies.txt" = Company,'Dictionary.mtwl', true, 4, false, 0, ".,-/")};
        

        在这里,使用包含名字和公司单词列表的字典“Dictionary.mtwl” 注释文档。先前包含在文件“FirstNames.txt”中的单词被注释 类型为 FirstName,文件“Companies.txt”中的单词类型为 Company。这 如果单词的长度超过 4,则忽略单词的大小写。编辑距离被禁用。 当前无法通过参数配置编辑操作的成本。最后的论据 另外定义了几个将被忽略的字符。

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 2018-01-24
          • 1970-01-01
          • 2021-09-13
          • 2018-08-27
          相关资源
          最近更新 更多