半自动注释工具 - 如何找到 RDF 三元组答案

【问题标题】：Semi-automatic annotation tool - How to find RDF Triplets半自动注释工具 - 如何找到 RDF 三元组
【发布时间】：2012-04-28 21:44:41
【问题描述】：

我正在为医学文本开发一个半自动注释工具，我完全迷失在寻找用于注释的 RDF 三元组。

我目前正在尝试使用基于 NLP 的方法。我已经研究过斯坦福 NER 和 OpenNLP，它们都没有用于提取疾病名称的模型。

我的问题是： * 如何创建用于提取疾病名称的新 NER 模型？我可以从 OpenNLP 或 Standford NER 那里获得任何帮助吗？ * 除了 NLP 之外，还有其他方法可以从文本中提取 RDF 三元组吗？

任何帮助将不胜感激！谢谢。

【问题讨论】：

【解决方案1】：

我使用 OpenNLP 和 LingPipe 完成了一些类似于您需要的操作。我发现 LingPipe 的基于字典的精确分块足以满足我的用例并使用它。此处提供文档：http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html

你可以在这里找到一个小演示：

如果地名词典/字典方法对您来说不够好，您可以尝试创建自己的模型，OpenNLP 也有用于训练模型的 API。文档在这里：http://opennlp.apache.org/documentation/1.5.2-incubating/manual/opennlp.html#tools.namefind.training

从自然语言中提取 RDF 三元组是一个不同于识别命名实体的问题。 NER 是一个相关的，也许是必要的步骤，但还不够。要从自然语言中提取 RDF 语句，您不仅需要识别语句的主语和宾语等实体。但是您还需要识别这些实体的动词和/或关系，还需要将它们映射到 URI。

【讨论】：

mmmmmmm.. 好的，我已经研究过 OpenNLP 训练工具，但我的问题是：当模型最初是为人名设计的时，我可以训练发现疾病名称的模型吗？
您可以尝试并尽可能地衡量它。无论您使用什么工具，您都可能需要一个数据集来训练它（除非您使用地名词典/字典方法）。因此，您可以使用相同的数据集来训练不同的系统并进行比较。 OpenNLP 训练 API 非常简单，用它做实验并不昂贵。但是，您需要一个训练数据集。
是的，完全正确.. 我看了一些训练/测试数据集，发现了一些免费的，其中最好的似乎是 PubMed 数据库.. 你知道吗？我可以使用的其他训练数据集？非常感谢！
嗨，Gavin，我的用例是在食谱中寻找配料、工具和烹饪技术（因此，场景完全不同）。恐怕，对于您的疾病用例训练数据集，我没有好的建议。