【发布时间】:2025-12-21 05:35:06
【问题描述】:
如何抑制异常检测中的某些异常值?
我们使用自动编码器构建了一个模型,它检测到了异常情况。 一些被标记为异常(正态分布之外)的数据点实际上并不是异常。
我们如何训练模型不将这些识别为异常?
我们是否将这些数据点的多个副本添加到数据集中,然后再次训练,或者我们可以在这里应用任何其他技术。
这里的正态分布是余弦相似度(距离),因为数据点是文本数据(日志条目)的矢量化表示。因此,如果输入向量和重构向量之间的余弦距离不属于正态分布,则视为异常。
【问题讨论】:
标签: python machine-learning text-classification autoencoder anomaly-detection