【发布时间】:2012-09-06 07:45:05
【问题描述】:
约翰·爱德华·格雷开始跑步,因为他知道自己肥胖
她正在听那个糟糕的歌手
打那个
我想从一个句子中提取有趣的术语。我目前使用 POS 标记来识别每个实体的语法类型。然后我将每个标记更新为一个计数器(名词、动词和形容词的权重不同)。
我现在希望为此使用分块器。我认为解析树的叶节点包含所有有趣的单词和短语。如何从分块器输出中提取术语?
【问题讨论】:
-
分块不产生解析树。如果“chunker”是指“parser”,那么叶节点通常只包含单词,而不是多单词短语。
-
我选择了错误的术语。但后来我看到 “块结构是包含标记和块的树” 以及表示它的“浅树结构”的东西。提取短语实体的组件的正确名称是什么?
-
这是一个大块头。它产生了一个非常简单的两层结构,令牌和块;称树在数学上是正确的,但没有实际价值。如果你把它当成一棵树,那么叶子就不是有趣的元素,而是更高层次的元素。
-
你想要动词“running”,而不是“listening”?
-
对您而言,是什么让一个词“有趣”?