【发布时间】:2021-02-28 15:33:36
【问题描述】:
我有下表
| student_id | subjects |
|---|---|
| 1 | math |
| english | |
| 2 | math |
我需要计算每个学科有多少学生
我尝试执行以下查询,但在 +4TB 数据上出现“超出资源”错误(主题数组在实际数据中很大)
选择主题,计数(不同的 id) 从 my_table t, unnest(t.subjects) 主题 按主题分组我认为未嵌套和太大数据的问题是什么?有什么建议吗?
【问题讨论】:
我有下表
| student_id | subjects |
|---|---|
| 1 | math |
| english | |
| 2 | math |
我需要计算每个学科有多少学生
我尝试执行以下查询,但在 +4TB 数据上出现“超出资源”错误(主题数组在实际数据中很大)
选择主题,计数(不同的 id) 从 my_table t, unnest(t.subjects) 主题 按主题分组我认为未嵌套和太大数据的问题是什么?有什么建议吗?
【问题讨论】:
尝试使用 APPROX_COUNT_DISTINCT,如下例所示
select subject, approx_count_distinct(student_id) students
from my_table t,
unnest(t.subjects) subject
group by subject
【讨论】: