二进制分类答案

【问题标题】：Binary Classification二进制分类
【发布时间】：2016-06-01 14:49:46
【问题描述】：

假设我没有为实例分配标签，而是编写了一个从实例到标签的确定性函数，它说，

“如果实例 A 满足某个条件，则将其标记为 0。否则，将其标记为 1。”

然后我对生成的实例和标签集运行 ROC 分析。

谁能告诉我，我到底做了什么？我只是在测试我作为分类器的功能的判别能力吗？

我有点困惑，因为在这种情况下，我是分配标签的人。我并不是假设它们是给定的并试图学习分类器本身。

【问题讨论】：

标签： machine-learning classification

【解决方案1】：

您所做的在机器学习中很常见。您将获得一个未知的随机过程 f: IR^m -> IR^n 以及一些有趣的信息（由标签表示），这些信息是作为 n 结果的函数给出的，即 g: IR^n -> {0,1}。

现在您只对这些标签感兴趣，因此您不必费心预测原始过程f——这更难，因为它是多维值的。相反，您只考虑组合过程

h: IR^m -> {0,1}, h = g o f

并尝试对此过程进行二分类。

在某种程度上，这可以通过任何二进制分类数据集完成。人们总是可以构造（有时是人为地）中间变量，然后将它们映射到二进制结果集（通过您的案例中的已知映射或通过尚未推断的映射）。考虑例如多层神经网络：隐藏层可以被认为是那些中间变量。类似地，对于主成分回归，输入变量首先进行线性变换——即应用确定性映射——然后推断出结果可能更容易的随机过程。

编辑：很大程度上取决于您应用的标签。如果它是从中间变量到 {0,1} 的“自然”映射，即直接对您要查找的数量进行分类并且由您的设置唯一指定的映射，请继续。但是，我的印象是您并不完全确定映射的质量。在这种情况下，我会避免通过您的映射来影响机器学习方法，并直接对所寻求的数量进行建模……也许您可以提供更多有关您的设置的详细信息，然后我们可以在此处继续。

【讨论】：

这是一个很好的答案，我会赞成，只有一件事我不明白：在我的情况下，如果我编写了确定性函数映射，我如何给出一个未知的随机过程实例输入？换句话说，这个过程如何未知？如果我一开始有一组实例和相关标签，并且没有自己使用这个函数生成它们，那不就是这种情况吗？
@roccomay：未知和随机是主要过程，标签本身在您的情况下是确定性的。现在，未知随机过程和确定性函数的组合（通常）又是一个未知随机过程，但希望更容易解释。我会在我的回答中添加一些实用的建议。