【发布时间】:2022-01-17 00:26:51
【问题描述】:
我有一个场景,我将在 csv 文件中接收数据,并且我需要使用现有的列生成一些列。 示例:
Col_1 Col_2 Col_3 Col_4
abc 1 No 123
xyz 2 Yes 123
def 1 Yes 345
预期:
Col_1 Col_2 Col_3 Col_4 Col_5 Col_6
abc 1 No 123 1 1
xyz 2 Yes 123 0 0
def 1 Yes 345 0 0
Col_5 条件:如果 Col_1 = 'abc' then 1 else 0 end Col_6 条件:max(Col_5) 超过 (Col_2)
我知道当我们在其中加载文件时我们可以在 Druid 中执行转换,我尝试了更简单的条件,这对我来说很好,但我很怀疑在这里执行聚合和其他转换,如 Col_6。
我们还需要对我们将要接收的不同文件数据执行聚合,假设我们今天得到 2 个文件,我们将数据加载到 Druid 表中,明天我们又得到了一些 3 个文件,这些文件具有相同 (ID) 的数据这里是 Col_2 那么我们需要根据我们拥有的所有记录进行聚合,例如:这里是 Col_6 生成...
这会在德鲁伊中实现吗?
【问题讨论】:
标签: scala apache-spark bigdata druid pydruid