什么是远程监督？答案

【问题标题】：what is distant supervision?什么是远程监督？
【发布时间】：2015-06-17 00:28:26
【问题描述】：

根据我的理解，远程监督是指定段落中的单个单词（通常是句子）试图传达的概念的过程。

例如，一个数据库维护结构化关系concerns( NLP, this sentence).

我们的远程监督系统会将以下句子作为输入："This is a sentence about NLP."

它会根据这个句子识别实体，因为作为预处理步骤，该句子将通过命名实体识别器NLP 和this sentence。

由于我们的数据库中有 NLP 和 this sentence 通过 concern(s) 的键相关联，因此它将输入句子识别为表达关系 Concerns(NLP, this sentence)。

我的问题有两个：

1) 那有什么用？是不是以后我们的系统可能会看到诸如That sentence is about OPP之类的“狂野”中的句子并意识到它看到了与之前相似的东西，从而仅基于单词/单个标记来实现concerns(OPP, that sentence).这样的新关系?

2) 是否考虑了句子的实际单词？例如，动词“是”和副词“关于”，意识到（通过 WordNet 或其他一些下位词系统）这在某种程度上类似于高阶概念“关注”？

是否有人有一些代码用于生成我可以查看的远程监督系统，即交叉引用 KB（如 Freebase）和语料库（如 NYTimes）并生成远程监督数据库的系统？我认为这将大大有助于澄清我对远程监督的概念。

【问题讨论】：

【解决方案1】：

RE 1) 是的，这完全正确。最后，我们想要的是一个分类器，它以输入文本和文本中提到的一对实体作为输入，并告诉我们该句子中这些实体之间的关系。远程监督是一种模拟这种训练数据的方式，使用来自已知知识库的“远程监督”。但是，最终目标与大多数机器学习任务相同：泛化到新句子。

RE 2) 当然可以！远程监督仅适用于如何生成训练数据 [1]。一旦你假设了远程监督，剩下的就是一个 (sentence, relation_for_sentence) 对的语料库，然后你提取句子中所有常见的 NLP 特征。

[1] 第一个近似值 - 存在“远程监督”模型（如 MultiR 和 MIML-RE），它们不会直接生成假训练数据，而是将监督间接纳入训练过程本身。但是，即使在这些模型中，潜在变量模型中也有一个因素相当于按句子分类，只是输出变量是潜在的，而不是像普通远程监督那样天真地“观察到”。

【讨论】：

【解决方案2】：

根据我现在的理解——远程监督的真正价值在于我们可以用它来注释一个大的语料库，而不必手动考虑每个句子——因为这在工时方面非常昂贵——所以最后一些句子中公认的关系将是错误的——但它会——希望“相当好”……这在某些应用程序中很有用和...其他的东西，例如...（欢迎举例）

【讨论】：