【发布时间】:2019-04-11 19:19:16
【问题描述】:
我必须创建这种机制:我有一个包含 Git 存储库统计信息的数据集(例如每天的提交次数、每天编辑的代码行数等。不超过 4 或 5 个字段)。我必须使用异常检测算法来分析此数据集,并在检测到与正常值不同的值时发出警报。
例如:我每天结束时都会启动此算法,如果在这一天提交的次数比平时多,则必须触发警报。
我必须用 Python 来实现这个系统。
根据我在互联网上阅读的内容,要制作这个系统,您需要使用无监督机器学习。 在过去的几个月里,我一直在学习机器学习课程,并且知道如何使用 Python 库的 Sklearn(有点)。但我不是真正的机器学习专家,我不知道该怎么做。 不幸的是,在互联网上我只能找到非常理论性的教程(由数据科学家编写),我不明白我在实践中必须做什么。
有人可以告诉我该怎么做和使用什么吗?
我的问题有或多或少简单的解决方案吗? 谢谢。
【问题讨论】:
-
我认为你在很大程度上想多了。对于 4 或 5 个字段,只需查看一段时间内的值分布,并将阈值设置为高于某个百分位值。如果你想要一些动态的东西,你可以定期重新计算阈值。在这里,无监督机器学习就像用大炮压扁蚊子。
标签: python machine-learning data-science anomaly-detection