【发布时间】:2016-04-05 10:06:45
【问题描述】:
我正在尝试通过 Google BigQuery 从 github 存档中查询协作者登录信息、存储库语言和名称。如果我排除 GROUP BY,则以下查询可以正常工作,但是使用 GROUP BY,查询将永远持续下去,直到我从 google bigquery 获得超时。由于 Google BigQuery 没有 DISTINCT,我尝试使用 GROUP BY 作为 DISTINCT,这样我就不会得到重复的行。这是我正在使用的查询:
SELECT
a1.actor_attributes_login,
a2.actor_attributes_login,
a1.repository_language,
a1.repository_name,
FROM
[githubarchive:year.2014] AS a1
LEFT JOIN
[githubarchive:year.2014] AS a2
ON
a1.repository_name = a2.repository_name
WHERE
a1.actor_attributes_login != a2.actor_attributes_login
AND a1.actor_attributes_location = "California"
AND (a1.repository_language = "Java"
OR a1.repository_language = "Python")
GROUP BY
a1.actor_attributes_login,
a2.actor_attributes_login,
a1.repository_language,
a1.repository_name
LIMIT
10000
【问题讨论】:
标签: sql google-bigquery