wordnet中的词域答案

【问题标题】：Domain of words in wordnetwordnet中的词域
【发布时间】：2014-03-21 01:13:14
【问题描述】：

在wordnet中，名词、形容词、副词和动词文件中的单词数量分别分类。如何使用 wordnet 获取某些词的域或特定域中的词？

例如，假设我有一些像 (bark,dog,cat) 这样的词，所有这些词都与动物有关。但是我们如何通过 wordnet 了解这一点呢？有什么机制吗？

【问题讨论】：

【解决方案1】：

您不能直接基于 WordNet 将“树皮”等动词与“动物”集群联系起来。但是，您可以通过搜索这些术语的上位词，将 dog、cat 等视为不同种类的动物。 WordNet 有一个树形结构，其中任何单词 is-a 是一个类别的成员。从任何单词向上遍历这个类别树最终将引导您到达这棵树的根，称为 entity。

因此，您可以在此类别树中使用两个词的lowest common ancestor (LCA) 概念。如果两个词的 LCA 是 animal 或 animal 的下义词，那么两者都是相关的。因此，如果您从一些先验知识开始（例如，“狗是一种动物”），那么您可以按照这个算法将其他动物添加到这个集群中。

要同时包含“bark”、“moo”等术语，您需要采用更复杂的距离度量。这些是调查不同类型的基于树的关系的指标（例如 path score 或 Wu-Palmer score）或字典定义之间的重叠程度单词（例如 LESK）。

例如，“dog”和“bark”之间的 LESK 得分为 158，而“dog”和“catapult”之间的 LESK 得分为 39。因此，高分表明这些词属于相同（或相似）的类别。

WS4J 包是一个很好的软件包（Java 中），其中提供了这种距离测量。他们有一个online demo here。

【讨论】：