【发布时间】:2014-12-02 07:20:04
【问题描述】:
请参阅下面的查询
Select count(*) FROM
(Select distinct Student_ID, Name, Student_Age, CourseID from student) a1
JOIN
(Select distinct CourseID, CourseName, TeacherID from courses) a2
ON a1.CourseID=a2.CourseID
JOIN
(Select distinct TeacherID, TeacherName, Teacher_Age from teachers) a3
ON a2.TeacherID=a3.TeacherID
子查询必须用于重复数据删除。
此查询在 PostgreSQL 中运行良好。但是,如果我在学生表和教师表之间添加条件,根据执行计划,Postgres 会错误地嵌套循环加入没有直接关系的学生表和教师表。例如:
Select count(*) FROM
(Select distinct Student_ID, Name, Student_Age, CourseID from student) a1
JOIN
(Select distinct CourseID, CourseName, TeacherID from courses) a2
ON a1.CourseID=a2.CourseID
JOIN
(Select distinct TeacherID, TeacherName, Teacher_Age from teachers) a3 ON
a2.TeacherID=a3.TeacherID
WHERE Teacher_Age>=Student_Age
此查询将永远运行。但是,如果我用表替换子查询,它会运行得非常快。在不使用临时表存储去重结果的情况下,有没有办法避免这种情况下的嵌套循环?
感谢您的帮助。
【问题讨论】:
-
既然可以加入表本身,为什么还要加入内联查询。考虑一下,改为执行 LEFT JOIN 并将条件放在 join 子句中而不是 WHERE。
-
子查询必须用于重复数据删除。我们的数据集中有很多这样的东西。此外,上面的每个表都包含大约 3M 条记录。
-
如果学生、教师和课程表中有很多重复,这听起来像是架构中的缺陷。唯一标识属性应位于一个表中,并且与它们相关的任何数据都应在您选择标识数据应位于一个或多个其他表中时导致重复。
-
我们可以使用
buffers选项来制定您的计划吗? -
@gwaigh:我无法更改架构或数据。这些表是多站点数据集成的结果。在每个站点,每个学生都是独一无二的。然而,由于同一学生的数据在集成后可能存储在多个站点,因此出现了重复。
标签: postgresql loops join nested subquery