【问题标题】:How to build features for relation extraction for SVM?如何为支持向量机的关系提取构建特征?
【发布时间】:2016-05-09 17:05:13
【问题描述】:

感兴趣的领域:信息提取

这对我来说很新鲜,我正在尝试了解如何设计特征(无论是词汇还是语义)以学习信息提取中的关系。

从论文中可以看出,在两个命名实体之间的关系中采用监督学习特征的简单步骤之一是

* The sequence of words between the two entities
* the part of speech tags of these words
* bag of words between the two words

两个实体之间的单词数不应该根据您正在查看的训练句子而改变吗?那么,如何构建大小不一致的特征向量呢?

例如,请参阅以下两句话来学习具有关系的人员和组织:所有者。

1. Mike is the owner of the company called, Spark.
2. Denis owns the black building called Halo.

对于示例 1,Mike 和 Spark 之间的单词数是 [is, the, owner, of, the, company, called] 是 7 个特征词,而对于示例 2,我们有 [owns, the , black, building, called] 5个特征词。

我在哪里误解了这个问题? 谢谢!

【问题讨论】:

    标签: nlp nltk information-extraction


    【解决方案1】:

    我相信您在第三点中的意思是“两个实体之间的词袋”。词袋模型创建不考虑词序的向量,并考虑语料库的整个词汇量。每个词的出现频率被用作训练分类器的特征。

    适应你的例子:

    Sentence 1: "Mike is the owner of the company called, Spark."
    Sentence 2: "Denis owns the black building called Halo"
    

    从这两个句子中,词汇表如下,假设停用词(即 the、is、of 等)已被删除,并且您将句子拆分为单独的标记:

    vocabulary = {owner, company, called, owns, black, building}
    

    然后您可以使用每个单词的原始频率(注意:您还可以应用更复杂的测量方法,例如 TF-IDF):

    Sentence 1: {1, 1, 1, 0, 0, 0}
    Sentence 2: {0, 0, 1, 1, 1, 1}
    

    您可以通过应用词形还原技术来降低向量的维度,例如将动词简化为词根形式。这可以在 Python NLTK 中完成:

    >>> from nltk.stem.wordnet import WordNetLemmatizer
    >>> lmtzr = WordNetLemmatizer()
    >>> lmtzr.lemmatize("owns","v")
    u'own'
    >>> lmtzr.lemmatize("owned","v")
    u'own'
    

    “v”表示与每个单词相关联的词性 (PoS) 标签,在本例中是动词。您还可以使用 NTLK 获取句子的 PoS-tags:

    >>> s = "Denis owns the black building called Halo"
    >>> tokens = nltk.word_tokenize(s)
    >>> print nltk.pos_tag(tokens)
    >>> [('Denis', 'NNP'), ('owns', 'VBZ'), ('the', 'DT'), ('black', 'JJ'),('building', 'NN'), ('called', 'VBN'), ('Halo', 'NNP')]
    

    应用词干技术:

    vocabulary = {own, company, called, black, building}
    

    我相信他们在论文中提到的单词序列是相似的,但是你提取的是标记序列,而不是简单的标记,这也称为 n-gram。

    请注意,您还可以设置一个特征(即特征向量中的一个维度),它是一个字符串,其中包含两个实体之间的单词序列或 PoS 标记。

    您能否准确指出您提到的论文或论文,这可能会有所帮助 进一步澄清答案。

    另外,请检查:

    UTD: Classifying Semantic Relations by Combining Lexical and Semantic Resources

    在 SemEval-2010 Task 8 关于名词之间语义关系的多路分类中取得了最好的结果。他们列出了 45 种不同的功能,可以为您的工作提供灵感。

    【讨论】:

    • 那么,词汇特征的大小就是给定文本的总词汇量的大小?那就是我感到困惑的地方,如果我说的是正确的,那么现在事情就说得通了。如果这是真的,那么对于非常大的文档,特征向量的大小一定非常大,因为它们中会有更多的独特词。 Ref1Ref2 是我正在阅读的其他几个参考文献中的两个。
    猜你喜欢
    • 2020-08-28
    • 2016-05-19
    • 2013-11-20
    • 2020-06-19
    • 2016-08-04
    • 2013-01-03
    • 2016-08-17
    • 2013-07-05
    • 2011-05-17
    相关资源
    最近更新 更多