【问题标题】:Handle high cardinality for one column in time-series database处理时间序列数据库中一列的高基数
【发布时间】:2018-12-12 02:08:35
【问题描述】:

我有一个非常高的基数时间序列数据库。假设我的时间序列数据库中有 4 列(A、B、C 和 D),它们的基数分别为(10、100、50、10,000,000)。所以,我总共有一个 (10*100*50*10,000,000) 基数的数据库。我想知道以下问题:

  1. 我应该使用哪个警报系统来监控高基数 (比如过去一小时数据中的 500 万个基数)数据库。
  2. 如果时间序列数据库中有 1 列,最好的处理方法是什么 基数非常高?

【问题讨论】:

    标签: time-series monitor prometheus


    【解决方案1】:

    我假设您想使用某种监控系统,在某些事件中触发系统以对某项服务发出警报,对吗?就像一个异常检测系统。

    所以,我的问题是,您是在寻找监控工具,只是为了报告功能,还是使用时间序列进行机器学习?

    我会以机器学习为导向来回答这个问题。如果这不是您的意图,我很抱歉:

    ==> 在 ML 中,如果您需要将 usem 作为虚拟变量,则通常通过 bining 处理具有高基数的特征。换句话说,对于特征的每个级别,都会创建一个新的二进制列。 (例如:http 代码:200、200、201、404、409、500 ==> 2xx、3xx、4xx)。

    ==> 但是,如果您使用基于树的算法来处理高基数,则不需要虚拟变量来处理德基数。

    可以使用更多方法,但我需要知道这是否是您正在寻找的,以便我加深答案。

    【讨论】:

      猜你喜欢
      • 2021-09-12
      • 1970-01-01
      • 2013-12-07
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-12-07
      • 2016-11-04
      • 1970-01-01
      相关资源
      最近更新 更多