【发布时间】:2016-07-01 20:45:38
【问题描述】:
我正在使用新的 Github dataset 学习 BigQuery,但由于超出资源,我对提交数据集的查询一直失败。我将 SQL 精简为这段代码,但仍然失败:
SELECT
commit,
FIRST(repo_name) AS repo_name,
FIRST(author.email) AS author_email,
FIRST(author.time_sec) AS time,
SUM(LENGTH(message)) AS len_commit_msg,
COUNT(difference.new_path) AS num_files
FROM
[bigquery-public-data:github_repos.commits]
GROUP BY
commit
ORDER BY
repo_name,
time
有问题的数据集很大(150m 行),我想要的只是一个提交列表,其中包含有关它们的基本信息(提交消息的长度和更改文件的数量)。
这个例子有什么特别错误的地方吗?我尝试更改 SUM(LENGTH(message)) 部分和 COUNT() 无济于事。或者排序部分是大查询的禁忌?
我还检查了之前的“资源超出”问题,答案与我避免的 PARTITION、JOIN 或 GROUP EACH BY 问题有关。
【问题讨论】:
标签: google-bigquery