【发布时间】:2015-10-11 23:17:00
【问题描述】:
我尝试使用 LIMIT 100 进行以下查询,并得到“查询执行期间超出资源”(otichyproject1:job_1mpw4aDtTHmbduBdKSBu5ty1DXY),因此我尝试将其输出到新表中并允许较大的结果。它运行的时间更长,但因“内部错误”而失败 (otichyproject1:job_6pFUlj2AzdROUyAU8nZ9dGdo3ms)。
SELECT
ngram, decade, SUM(freq) totalfreq, SUM(books) totalbooks
FROM
trigram.trigrams3
GROUP BY
ngram, decade
表格 trigrams3 源自公共 trigram 数据集,应该更小(尽管 trigrams 上的 COUNT 给出奇怪的结果)。
关于如何进行这项工作的任何想法?
【问题讨论】:
-
你能公开分享数据集吗?那我就可以试试了
-
我添加了所有经过身份验证的用户:可以查看数据集 - otichyproject1:trigram。有问题的表是 trigrams3,我从谷歌的公共 trigram 数据集派生如下:(插入 trigrams1)SELECT ngram, cell.value year, cell.match_count freq, cell.volume_count books FROM [publicdata:samples.trigrams] (插入 trigrams2) SELECT * FROM trigram.trigrams1 WHERE REGEXP_MATCH(ngram, r'^[A-Za-z\'\-\s]+$') (插入 trigrams3) SELECT ngram, LEFT(year)十年,频率,来自 trigram.trigrams2 的书籍谢谢!
标签: group-by aggregate-functions google-bigquery