【问题标题】:Spark - Evaluation IssueSpark - 评估问题
【发布时间】:2017-08-11 22:35:25
【问题描述】:

我正在尝试评估我创建的模型。该模型在输出中为我提供了一个 id 列表及其对应的错误构造(一个分数),并且 id 根据这个分数进行排序。假设分数越高,id 越可疑。

例子:

ids: t4, c1, s3, d5, a2, ...
score: 18, 15, 13, 5, 2, ...

另外,我还有另一个列表,其中包含真正的可疑 ​​id。

suspicious: c1,d5

我的目标是能够说我的可疑列表中的 x% 的 id 在分数列表中位于前 y%。

有什么想法吗?你会很慷慨地在 Spark 中实施!

【问题讨论】:

    标签: apache-spark evaluation anomaly-detection


    【解决方案1】:

    这是我所做的,使用 pandas 数据框:

    • 我创建了一个包含所有数据的数据帧 df,并将可疑数据加载到一个系列中。
    • 在 df 中添加了另一列,我将其命名为 label。记录的标签是基于wither id是否存在可疑
    • 使用这个最终数据框(id、score、label),我能够根据标签进行计数,并且能够得到问题中的陈述。

    【讨论】: