【发布时间】:2020-05-01 05:51:56
【问题描述】:
我是 UIMA Ruta 和 Eclipse 的新手。也许你们中的一些人处理过注释。请告诉我“字典”这个词在这种情况下是什么意思。提前致谢!
【问题讨论】:
我是 UIMA Ruta 和 Eclipse 的新手。也许你们中的一些人处理过注释。请告诉我“字典”这个词在这种情况下是什么意思。提前致谢!
【问题讨论】:
我认为您实际上指的是 UIMA 的 Dictionary Annotator。基本上,它用字典条目注释文档中的单词。详情请见User Guide。
【讨论】:
在 UIMA Ruta 的上下文中,字典只不过是一个单词列表:一种用于快速注释在命名资源中声明的文本项的外部资源。 这是一个例子:
WORDLIST FirstNameList = 'FirstNames.txt';
DECLARE FirstName;
Document{-> MARKFAST(FirstName, FirstNameList)};
更多信息请参考documentation。
【讨论】:
在 Uima Ruta 中,字典的意思是 Wordlist 或 Wordtable。
单词表:
WORDLIST FirstNameList = 'FirstNames.txt';
DECLARE FirstName;
Document{-> MARKFAST(FirstName, FirstNameList, true, 2)};
此规则注释文档内列表“FirstNameList”中列出的所有名字并忽略 大小写,如果单词的长度大于2。
WORDTABLE:
WORDTABLE TestTable = 'TestTable.csv';
DECLARE Annotation Struct(STRING first);
Document{-> MARKTABLE(Struct, 1, TestTable, true, 4, ".,-", 2, "first" = 2)};
在本例中,搜索整个文档以查找所有出现的第一个条目 给定表“TestTable”的列。对于每次出现,Struct 类型的注释是 已创建,其特征“第一”填充第二列的条目。此外,该案 如果单词的长度超过 4,则忽略该单词。此外,忽略字符 '.'、',' 和 '-', 但最多两个。
当我们需要使用多个词表时 - 使用 TRIE 操作 来提高流程的性能。
Document{->TRIE("FirstNames.txt" = FirstName, "Companies.txt" = Company,'Dictionary.mtwl', true, 4, false, 0, ".,-/")};
在这里,使用包含名字和公司单词列表的字典“Dictionary.mtwl” 注释文档。先前包含在文件“FirstNames.txt”中的单词被注释 类型为 FirstName,文件“Companies.txt”中的单词类型为 Company。这 如果单词的长度超过 4,则忽略单词的大小写。编辑距离被禁用。 当前无法通过参数配置编辑操作的成本。最后的论据 另外定义了几个将被忽略的字符。
【讨论】: