用于寻找特殊特征的 R/机器学习算法？答案

【问题标题】：R/machine learning algorithm for finding special characteristics?用于寻找特殊特征的 R/机器学习算法？
【发布时间】：2019-05-20 11:34:04
【问题描述】：

我的一位同事要求我解决一个问题，我很难想出可能的解决方案。问题是：我有一个数据集，其中每一行代表我们在这里制造的一件产品，而列代表在生产过程中出现的许多不同因素的值（例如长度、重量、温度等）。现在，有时会出现某种产品严重缺陷，无法出售给客户。由于我们不知道为什么会出现这些缺陷，我们想查看这个数据集并使用 R 中的机器学习算法找出有缺陷的产品是否有任何不同或异常（例如温度高于平均水平等）开）。

我想我要问的是，如果有任何类型的方法、算法或研究，任何人都可以指出我，这样我就可以获得更多有关这方面的信息。非常感谢您的帮助！

【问题讨论】：

查看随机森林/决策树。设置计算只需要您做一些工作。

标签： r machine-learning data-science

【解决方案1】：

有许多不同的方法可能适合您的需求。例如，如果您有相应标记的缺陷示例，您可以尝试使用标准机器学习算法（SVM、朴素贝叶斯、随机森林等）进行简单的二元分类。

尽管在您的情况下，异常检测算法似乎更适合。这里的想法是训练分类器来检测一类示例（“正常”类），并且它无法检测到的所有内容都可能是您的案例中的异常或产品缺陷。您可以查看使用在caret 中实现的 SVM 的一类分类（查看类似问题，例如One-class classification with SVM in R ）。您可以尝试的另一种算法是用于异常检测的自动编码器（如Predicting Fraud with Autoencoders and Keras 中所述）。这是假设缺陷样本在自动编码器中的重构误差将高于非缺陷样本。

如果我站在你的立场上，我会尝试这些异常检测算法，因为它们似乎符合你对问题的描述。

干杯:)

【讨论】：

您忘记的一件事是数据集将包含多个产品的数据。对一种产品来说完全正常的事情是否不可能被归类为另一种产品的异常情况。数据集可能没有这个问题，但如果有的话怎么办。
非常感谢您的回答！正如@rajatkabra 所提到的，对于一种产品来说正常的东西是否可能对另一种产品来说是异常的？无论如何，真的很感谢你的回答。我马上过去看看！ :)
@rajatkabra 是对的，这可能会发生，您应该对此有所了解。在这种情况下，您可以分离产品并为每个产品训练分类器，或者如果您的示例正确标记，只需使用多类分类。