【问题标题】:Suppressing false positives (incorrectly classified as outlier/anomaly) in Anomaly Detection using Autoencoders使用自动编码器在异常检测中抑制误报(错误地分类为异常值/异常)
【发布时间】:2025-12-21 05:35:06
【问题描述】:

如何抑制异常检测中的某些异常值?

我们使用自动编码器构建了一个模型,它检测到了异常情况。 一些被标记为异常(正态分布之外)的数据点实际上并不是异常。

我们如何训练模型不将这些识别为异常?

我们是否将这些数据点的多个副本添加到数据集中,然后再次训练,或者我们可以在这里应用任何其他技术。

这里的正态分布是余弦相似度(距离),因为数据点是文本数据(日志条目)的矢量化表示。因此,如果输入向量和重构向量之间的余弦距离不属于正态分布,则视为异常。

【问题讨论】:

    标签: python machine-learning text-classification autoencoder anomaly-detection


    【解决方案1】:

    由于异常检测器通常是在无人监督的情况下训练的,因此很难在不丢失异常检测属性的情况下直接将标签合并到该过程中。 一个简单的替代方法是将标记为异常的实例放入分类器中,分类为“真正的异常”与“非真正的异常”。该分类器将针对已标记的先前异常进行训练。它可以是二进制分类,也可以是已知“非真实”样本的一类。一个简单的起点是 k-Nearest-Neighbours 或特定领域的距离函数。分类器可以使用潜在特征向量作为输入,也可以自己进行特征提取。

    这种系统在Anomaly Detection with False Positive Suppression (relayr.io) 中有描述。 本文使用相同的基本思想来最小化假阴性率: SNIPER: Few-shot Learning for Anomaly Detection to Minimize False-negative Rate with Ensured True-positive Rate

    【讨论】:

      最近更新 更多