【问题标题】:Extracting <subject, predicate, object> triplet from unstructured text从非结构化文本中提取 <subject, predicate, object> 三元组
【发布时间】:2016-02-15 00:05:25
【问题描述】:

我需要从非结构化文本中提取简单的三元组。通常它是名词-动词-名词的形式,所以我尝试了词性标注,然后从邻域中提取名词和动词。 但是,它会导致很多情况并且准确性较低。 在这种情况下,句法/语义解析会有所帮助吗?

基于本体的信息提取会更有用吗?

【问题讨论】:

    标签: nlp


    【解决方案1】:

    我希望句法解析最适合您的场景。一些简单的带有 POS 标签的模板匹配方法可能会起作用,在这种方法中,您会发现动词前后都有一个名词,并将前者作为主语,将后者作为宾语。然而,听起来你已经尝试过类似的事情——除非你的邻域提取忽略了词序(这有点傻——你会猜测哪个名词是单词,哪个是宾语,这是假设每个句子中有两个名词)。

    由于您正在寻找 {s, v, o} 三元组,因此您可能不需要语义或本体信息。如果您想要更多信息,这将很有用,例如代理-患者关系或更深层次的知识提取。

    {s,v,o} 是浅层句法信息,并且鉴于句法解析比语义解析更加健壮和易于访问,这可能是您最好的选择。句法解析将对简单的单词重新排序敏感,例如“汉堡被约翰吃掉了。” => {约翰,吃,汉堡};您还可以专门处理不及物动词和双及物动词,这可能是更幼稚的方法的问题。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2016-09-07
      • 2013-10-02
      • 1970-01-01
      • 2021-11-29
      • 1970-01-01
      • 2020-09-07
      • 1970-01-01
      • 2020-06-19
      相关资源
      最近更新 更多