处理时间序列数据库中一列的高基数答案

【问题标题】：Handle high cardinality for one column in time-series database处理时间序列数据库中一列的高基数
【发布时间】：2018-12-12 02:08:35
【问题描述】：

我有一个非常高的基数时间序列数据库。假设我的时间序列数据库中有 4 列（A、B、C 和 D），它们的基数分别为（10、100、50、10,000,000）。所以，我总共有一个 (10*100*50*10,000,000) 基数的数据库。我想知道以下问题：

【问题讨论】：

【解决方案1】：

我假设您想使用某种监控系统，在某些事件中触发系统以对某项服务发出警报，对吗？就像一个异常检测系统。

所以，我的问题是，您是在寻找监控工具，只是为了报告功能，还是使用时间序列进行机器学习？

我会以机器学习为导向来回答这个问题。如果这不是您的意图，我很抱歉：

==> 在 ML 中，如果您需要将 usem 作为虚拟变量，则通常通过 bining 处理具有高基数的特征。换句话说，对于特征的每个级别，都会创建一个新的二进制列。（例如：http 代码：200、200、201、404、409、500 ==> 2xx、3xx、4xx）。

==> 但是，如果您使用基于树的算法来处理高基数，则不需要虚拟变量来处理德基数。

可以使用更多方法，但我需要知道这是否是您正在寻找的，以便我加深答案。

【讨论】：