【问题标题】:Semi-automatic annotation tool - How to find RDF Triplets半自动注释工具 - 如何找到 RDF 三元组
【发布时间】:2012-04-28 21:44:41
【问题描述】:

我正在为医学文本开发一个半自动注释工具,我完全迷失在寻找用于注释的 RDF 三元组。

我目前正在尝试使用基于 NLP 的方法。我已经研究过斯坦福 NER 和 OpenNLP,它们都没有用于提取疾病名称的模型。

我的问题是: * 如何创建用于提取疾病名称的新 NER 模型?我可以从 OpenNLP 或 Standford NER 那里获得任何帮助吗? * 除了 NLP 之外,还有其他方法可以从文本中提取 RDF 三元组吗?

任何帮助将不胜感激!谢谢。

【问题讨论】:

    标签: annotations rdf named-entity-recognition named-entity-extraction


    【解决方案1】:

    我使用 OpenNLP 和 LingPipe 完成了一些类似于您需要的操作。 我发现 LingPipe 的基于字典的精确分块足以满足我的用例并使用它。此处提供文档:http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html

    你可以在这里找到一个小演示:

    如果地名词典/字典方法对您来说不够好,您可以尝试创建自己的模型,OpenNLP 也有用于训练模型的 API。文档在这里:http://opennlp.apache.org/documentation/1.5.2-incubating/manual/opennlp.html#tools.namefind.training

    从自然语言中提取 RDF 三元组是一个不同于识别命名实体的问题。 NER 是一个相关的,也许是必要的步骤,但还不够。要从自然语言中提取 RDF 语句,您不仅需要识别语句的主语和宾语等实体。但是您还需要识别这些实体的动词和/或关系,还需要将它们映射到 URI。

    【讨论】:

    • mmmmmmm.. 好的,我已经研究过 OpenNLP 训练工具,但我的问题是:当模型最初是为人名设计的时,我可以训练发现疾病名称的模型吗?
    • 您可以尝试并尽可能地衡量它。无论您使用什么工具,您都可能需要一个数据集来训练它(除非您使用地名词典/字典方法)。因此,您可以使用相同的数据集来训练不同的系统并进行比较。 OpenNLP 训练 API 非常简单,用它做实验并不昂贵。但是,您需要一个训练数据集。
    • 是的,完全正确.. 我看了一些训练/测试数据集,发现了一些免费的,其中最好的似乎是 PubMed 数据库.. 你知道吗?我可以使用的其他训练数据集?非常感谢!
    • 嗨,Gavin,我的用例是在食谱中寻找配料、工具和烹饪技术(因此,场景完全不同)。恐怕,对于您的疾病用例训练数据集,我没有好的建议。
    猜你喜欢
    • 2013-07-02
    • 1970-01-01
    • 2017-05-09
    • 2014-12-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多