【问题标题】:what is distant supervision?什么是远程监督?
【发布时间】:2015-06-17 00:28:26
【问题描述】:

根据我的理解,远程监督是指定段落中的单个单词(通常是句子)试图传达的概念的过程。

例如,一个数据库维护结构化关系concerns( NLP, this sentence).

我们的远程监督系统会将以下句子作为输入:"This is a sentence about NLP."

它会根据这个句子识别实体,因为作为预处理步骤,该句子将通过命名实体识别器NLPthis sentence

由于我们的数据库中有 NLPthis sentence 通过 concern(s) 的键相关联,因此它将输入句子识别为表达关系 Concerns(NLP, this sentence)

我的问题有两个:

1) 那有什么用?是不是以后我们的系统可能会看到诸如That sentence is about OPP之类的“狂野”中的句子并意识到它看到了与之前相似的东西,从而仅基于单词/单个标记来实现concerns(OPP, that sentence).这样的新关系?

2) 是否考虑了句子的实际单词?例如,动词“是”和副词“关于”,意识到(通过 WordNet 或其他一些下位词系统)这在某种程度上类似于高阶概念“关注”?

是否有人有一些代码用于生成我可以查看的远程监督系统,即交​​叉引用 KB(如 Freebase)和语料库(如 NYTimes)并生成远程监督数据库的系统?我认为这将大大有助于澄清我对远程监督的概念。

【问题讨论】:

    标签: nlp stanford-nlp supervised-learning unsupervised-learning


    【解决方案1】:

    RE 1) 是的,这完全正确。最后,我们想要的是一个分类器,它以输入文本和文本中提到的一对实体作为输入,并告诉我们该句子中这些实体之间的关系。远程监督是一种模拟这种训练数据的方式,使用来自已知知识库的“远程监督”。但是,最终目标与大多数机器学习任务相同:泛化到新句子。

    RE 2) 当然可以!远程监督仅适用于如何生成训练数据 [1]。一旦你假设了远程监督,剩下的就是一个 (sentence, relation_for_sentence) 对的语料库,然后你提取句子中所有常见的 NLP 特征。

    [1] 第一个近似值 - 存在“远程监督”模型(如 MultiR 和 MIML-RE),它们不会直接生成假训练数据,而是将监督间接纳入训练过程本身。但是,即使在这些模型中,潜在变量模型中也有一个因素相当于按句子分类,只是输出变量是潜在的,而不是像普通远程监督那样天真地“观察到”。

    【讨论】:

      【解决方案2】:

      根据我现在的理解——远程监督的真正价值在于我们可以用它来注释一个大的语料库,而不必手动考虑每个句子——因为这在工时方面非常昂贵——所以最后一些句子中公认的关系将是错误的——但它会——希望“相当好”……这在某些应用程序中很有用和...其他的东西,例如...(欢迎举例)

      【讨论】:

        猜你喜欢
        • 2023-03-02
        • 2017-07-15
        • 2013-09-27
        • 2017-03-04
        • 2020-12-02
        • 2017-11-10
        • 2010-12-22
        • 2020-11-09
        • 2017-10-21
        相关资源
        最近更新 更多