【发布时间】:2016-02-15 00:05:25
【问题描述】:
我需要从非结构化文本中提取简单的三元组。通常它是名词-动词-名词的形式,所以我尝试了词性标注,然后从邻域中提取名词和动词。 但是,它会导致很多情况并且准确性较低。 在这种情况下,句法/语义解析会有所帮助吗?
基于本体的信息提取会更有用吗?
【问题讨论】:
标签: nlp
我需要从非结构化文本中提取简单的三元组。通常它是名词-动词-名词的形式,所以我尝试了词性标注,然后从邻域中提取名词和动词。 但是,它会导致很多情况并且准确性较低。 在这种情况下,句法/语义解析会有所帮助吗?
基于本体的信息提取会更有用吗?
【问题讨论】:
标签: nlp
我希望句法解析最适合您的场景。一些简单的带有 POS 标签的模板匹配方法可能会起作用,在这种方法中,您会发现动词前后都有一个名词,并将前者作为主语,将后者作为宾语。然而,听起来你已经尝试过类似的事情——除非你的邻域提取忽略了词序(这有点傻——你会猜测哪个名词是单词,哪个是宾语,这是假设每个句子中有两个名词)。
由于您正在寻找 {s, v, o} 三元组,因此您可能不需要语义或本体信息。如果您想要更多信息,这将很有用,例如代理-患者关系或更深层次的知识提取。
{s,v,o} 是浅层句法信息,并且鉴于句法解析比语义解析更加健壮和易于访问,这可能是您最好的选择。句法解析将对简单的单词重新排序敏感,例如“汉堡被约翰吃掉了。” => {约翰,吃,汉堡};您还可以专门处理不及物动词和双及物动词,这可能是更幼稚的方法的问题。
【讨论】: