【发布时间】:2016-10-13 00:41:45
【问题描述】:
我需要一个满足以下要求的机器学习算法:
- 训练数据是一组特征向量,都属于同一个“正”类(因为我无法生成负数据样本)。
- 测试数据是一些可能属于也可能不属于正类的特征向量。
- 预测应该是一个连续值,应该表示与正样本的“距离”(即0表示测试样本明显属于正类,1表示明显负,但0.3表示有点正)
一个例子: 假设特征向量是二维特征向量。
正向训练数据:
- (0, 1), (0, 2), (0, 3)
测试数据:
- (0, 10) 应该是一个异常,但不是一个明显的异常
- (1, 0) 应该是异常,但“等级”高于 (0, 10)
- (1, 10) 应该是异常,具有更高的异常“等级”
【问题讨论】:
-
这个想法是检查与正例的“距离”(如在异常检测中)。我实际上正在寻找一种以百分比表示的异常检测算法(异常的规模是多少)
-
你能说得更具体一些吗,例如你的数据是关于什么的?您能否提供一些示例输入数据以及您期望的结果?
-
@miraculixx 我添加了一个示例
标签: machine-learning unsupervised-learning novelty-detection anomaly-detection