【问题标题】:uima wordlist missing entriesuima wordlist 缺少条目
【发布时间】:2021-01-13 19:20:26
【问题描述】:

使用 uima ruta 2.7.0

DECLARE Substance;
WORDLIST EnzymeSearchList = 'enzyme.txt';
Document{-> MARKFAST(Substance, EnzymeSearchList, true)}; // true ignores case

enzyme.txt 包含约 16.000 个条目(=行)

如果我使用包含少量条目的文件,例如 5,我的进一步规则可以正常工作。一旦我提供了数千个条目的完整列表,我的结果就不完整了。

可能是达到 WORDLIST 限制导致的问题?或者堆可能?程序执行时没有任何错误。

我找到a thread 专门说明

UIMA Ruta 中的词表没有最大大小。 ...我最大的词表包含大约 50 万个条目

【问题讨论】:

    标签: uima ruta


    【解决方案1】:

    我假设您的意思是在文档中没有找到/注释几个(明显)实体的不完整?

    这很可能是由于酶.txt 文件中的空格造成的。您能否验证这一点,例如,删除此文件中的所有空格并重新测试脚本

    如果问题是由空格引起的,有几个选项可以解决/避免这种情况。例如,您可以将配置参数“dictRemoveWS”设置为 true,以便在加载字典时自动删除空白。

    是否可以选择升级到 UIMA Ruta 2.8.1(也应该可以解决此问题)?

    【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2022-07-29
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-07-17
    • 2011-02-21
    • 2023-03-07
    相关资源
    最近更新 更多