【问题标题】:Binary Classification二进制分类
【发布时间】:2016-06-01 14:49:46
【问题描述】:

假设我没有为实例分配标签,而是编写了一个从实例到标签的确定性函数,它说,

“如果实例 A 满足某个条件,则将其标记为 0。否则,将其标记为 1。”

然后我对生成的实例和标签集运行 ROC 分析。

谁能告诉我,我到底做了什么?我只是在测试我作为分类器的功能的判别能力吗?

我有点困惑,因为在这种情况下,我是分配标签的人。我并不是假设它们是给定的并试图学习分类器本身。

【问题讨论】:

    标签: machine-learning classification


    【解决方案1】:

    您所做的在机器学习中很常见。您将获得一个未知的随机过程 f: IR^m -> IR^n 以及一些有趣的信息(由标签表示),这些信息是作为 n 结果的函数给出的,即 g: IR^n -> {0,1}

    现在您只对这些标签感兴趣,因此您不必费心预测原始过程f——这更难,因为它是多维值的。相反,您只考虑组合过程

    h: IR^m -> {0,1}, h = g o f
    

    并尝试对此过程进行二分类。

    在某种程度上,这可以通过任何二进制分类数据集完成。人们总是可以构造(有时是人为地)中间变量,然后将它们映射到二进制结果集(通过您的案例中的已知映射或通过尚未推断的映射)。考虑例如多层神经网络:隐藏层可以被认为是那些中间变量。类似地,对于主成分回归,输入变量首先进行线性变换——即应用确定性映射——然后推断出结果可能更容易的随机过程。


    编辑:很大程度上取决于您应用的标签。如果它是从中间变量到 {0,1} 的“自然”映射,即直接对您要查找的数量进行分类并且由您的设置唯一指定的映射,请继续。但是,我的印象是您并不完全确定映射的质量。在这种情况下,我会避免通过您的映射来影响机器学习方法,并直接对所寻求的数量进行建模……也许您可以提供更多有关您的设置的详细信息,然后我们可以在此处继续。

    【讨论】:

    • 这是一个很好的答案,我会赞成,只有一件事我不明白:在我的情况下,如果我编写了确定性函数映射,我如何给出一个未知的随机过程实例输入?换句话说,这个过程如何未知?如果我一开始有一组实例和相关标签,并且没有自己使用这个函数生成它们,那不就是这种情况吗?
    • @roccomay:未知和随机是主要过程,标签本身在您的情况下是确定性的。现在,未知随机过程和确定性函数的组合(通常)又是一个未知随机过程,但希望更容易解释。我会在我的回答中添加一些实用的建议。
    猜你喜欢
    • 2018-07-28
    • 2021-04-10
    • 1970-01-01
    • 1970-01-01
    • 2013-07-04
    • 1970-01-01
    • 2017-05-30
    • 2018-01-29
    • 2021-05-09
    相关资源
    最近更新 更多