【发布时间】:2020-02-13 10:20:51
【问题描述】:
我有一个问题,我一直将其视为分类问题。我试图根据一些输入特征来预测机器是否会通过或失败特定的测试。
我真正感兴趣的实际上是预测一台新机器是否会通过测试。它可以通过使某些特征(例如速度、振动等)超出范围来通过或失败测试。
因此,我可以:
1) 将其视为纯回归问题;尝试预测速度、振动等的实际值
2) 将其视为纯分类问题;对于每个观察,在标签上输入它是通过还是失败,并尝试在我正在制作的工具中预测这一点
3) 将其视为伪问题;我在其中预测实际值,并根据与通过/失败阈值的距离来衡量我对通过或失败的信心程度
要清楚;我正在解决一个真正的问题。我对获得某个值的超精确预测不感兴趣,只是预测一台机器是通过还是失败(以及奖励扩展;它是真实的可能性有多大)。
我一直在使用分类模型,因为我只有几百个观察结果,并且之前的一些研究表明这可能是处理该问题的最佳方法。但是我现在想知道这是否是正确的做法。
你会怎么做!?
非常感谢。
【问题讨论】:
-
因为它更多的是关于理论,所以对于Cross Validated 或Data Science 堆栈站点来说,这将是一个更好的问题。话虽如此,这在很大程度上取决于您的最终目标是什么。您的模型应该旨在预测您尝试使用的结果。您是否试图预测失败/不失败?分类。您是否试图预测单个组件故障?多标签分类。预测组件是否会超速?可能是回归。
-
我的最终目标是预测通过/失败;但我并不真正关心“一般而言”的最佳方法是否是尝试预测参数的更精确值并从那里计算出是通过还是失败。我想知道是否有人以前有过如何处理此类问题的经验,尤其是在我没有大型数据集的情况下...
-
在我作为军事核工程师的工作中,故障概率通常被认为非常重要 - 例如,我们会准确地更换功能性、工作机械部件因为我们知道部件在给定使用寿命后发生故障的概率。出于这个原因,我倾向于选择你的选择 3。
-
太好了,谢谢你,这是宝贵的见解。在我的特殊情况下也是如此;能够按照“通过/失败的概率”对机器进行排名仍然很有用。在我的分类尝试中,我最初试图通过 predict_proba_ 来做到这一点;但是通过测量参数与我的通过/失败阈值的距离来做到这一点会更简单。再次感谢
标签: python machine-learning regression classification