【问题标题】:Domain of words in wordnetwordnet中的词域
【发布时间】:2014-03-21 01:13:14
【问题描述】:

在wordnet中,名词、形容词、副词和动词文件中的单词数量分别分类。如何使用 wordnet 获取某些词的域或特定域中的词?

例如,假设我有一些像 (bark,dog,cat) 这样的词,所有这些词都与动物有关。但是我们如何通过 wordnet 了解这一点呢?有什么机制吗?

【问题讨论】:

    标签: nlp wordnet


    【解决方案1】:

    您不能直接基于 WordNet 将“树皮”等动词与“动物”集群联系起来。但是,您可以通过搜索这些术语的上位词,将 dogcat 等视为不同种类的动物。 WordNet 有一个树形结构,其中任何单词 is-a 是一个类别的成员。从任何单词向上遍历这个类别树最终将引导您到达这棵树的根,称为 entity

    因此,您可以在此类别树中使用两个词的lowest common ancestor (LCA) 概念。如果两个词的 LCA 是 animalanimal 的下义词,那么两者都是相关的。因此,如果您从一些先验知识开始(例如,“狗是一种动物”),那么您可以按照这个算法将其他动物添加到这个集群中。

    要同时包含“bark”、“moo”等术语,您需要采用更复杂的距离度量。这些是调查不同类型的基于树的关系的指标(例如 path scoreWu-Palmer score)或字典定义之间的重叠程度单词(例如 LESK)。

    例如,“dog”和“bark”之间的 LESK 得分为 158,而“dog”和“catapult”之间的 LESK 得分为 39。因此,高分表明这些词属于相同(或相似)的类别。

    WS4J 包是一个很好的软件包(Java 中),其中提供了这种距离测量。他们有一个online demo here

    【讨论】:

      猜你喜欢
      • 2012-12-02
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-08-16
      • 1970-01-01
      • 2015-05-20
      相关资源
      最近更新 更多