【问题标题】:SQL query - Joining a many-to-many relationship, filtering/joining selectivelySQL 查询 - 加入多对多关系,有选择地过滤/加入
【发布时间】:2013-06-12 23:14:35
【问题描述】:

我发现自己在使用 SQL 查询时遇到了一些不可行的情况,我希望自己遗漏了一些东西或者可能会学到一些新东西。我正在使用的 DB2 数据库的结构并不完全适合这种查询,但我的任务是......

假设我们有餐桌人员和餐桌组。组可以包含多个人,一个人可以是多个组的一部分。是的,已经很乱了。无论如何,有几个中间表将两者联系起来。问题是我需要从组列表开始,获取这些组中的所有人员,然后获取这些人员所属的所有组,这将是初始组集的超集。这意味着从团体开始,加入到人中,然后返回并再次加入团体。我还需要结果集中两个表的信息,因此排除了一些技术。

我必须将它与许多其他表结合起来以获取更多信息,并且查询变得庞大、繁琐且缓慢。我想知道是否有某种方法可以从 People 开始,将其加入 Groups,然后指定如果一个人在提供的一组组中拥有一个组(通过子查询完成),那么 ALL 组因为那个人应该被退回。我不知道实现这一点的方法,但我在想(希望)有一种相对干净的方法可以在 SQL 中实现这一点。

一个快速而肮脏的例子:

SELECT ...
FROM GROUPS g
  JOIN LINKING_A a 
     ON g.GROUPID = a.GROUPID
        AND GROUPID IN (subquery)
  JOIN LINKING_B b 
     ON a.GROUPLIST = b.GROUPLIST
  JOIN PEOPLE p 
     ON b.PERSONID = p.PERSONID
    --This gets me all people affiliated with groups, 
    -- but now I need all groups affiliated with those people...
  JOIN LINKING_B b2 
     ON p.PERSONID = b2.PERSONID
  JOIN LINKING_A a2 
     ON b2.GROUPLIST = a.GROUPLIST
  JOIN GROUPS g2
     ON a2.GROUPID = g.GROUPID

然后我可以从结果集中的 p 和 g2 返回信息。你可以看到我在哪里遇到了麻烦。这是在一些大表上的很多连接,更不用说在这个查询中执行的许多其他连接了。我需要能够通过将 PEOPLE 加入 GROUPS 来进行查询,然后指定如果任何人在子查询中有关联的组,它应该返回与 PEOPLE 中的条目相关联的所有组。我在想 GROUP BY 可能只是一件事,但我还没有充分使用它来真正知道。因此,如果 Bill 是组 A、B 和 C 的一部分,并且我们的子查询返回一个包含组 A 的集合,则结果集应该包括 Bill 以及组 A、B 和 C。

【问题讨论】:

    标签: sql join db2 many-to-many


    【解决方案1】:

    以下是获取提供的组列表中的人所在的所有组的更短的方法。这有帮助吗?

    Select g.*
    From Linking_B b
       Join Linking_B b2
          On b2.PersonId = b.PersonId
       Join Group g
          On g.GroupId = b2.GroupId
    Where b.Groupid in (SubQuery)
    

    【讨论】:

    • 也许我做得不对,但它不起作用。有两个链接表,在其中一个上进行自连接并从那里拆分不会返回所有组,只返回子查询中的人和组。
    【解决方案2】:

    我不清楚为什么您同时拥有 Linking_A 和 Linking_B。通常,您只需要一个具有 GroupID 和 PersonId 的关联表来表示两个主表之间的多对多关系。

    我经常建议使用“通用表表达式”[CTE's],以帮助您将问题分解成更易于理解的块。 CTE 使用 WITH 子句指定,在开始主 SELECT 查询之前可以包含多个 CTE。

    我将假设您要开始的组列表由您的子查询指定,因此这将是第一个 CTE。下一个选择属于这些组的人。查询的最后部分然后选择这些人所属的组,并返回两个主表中的列。

    WITH g1 as
    (subquery)
    , p1 as
    (SELECT p.*
       from g1
       join Linking a1  on g1.groupID=a1.groupID
       join People  p   on p.personID=a1.personID )
    SELECT p1.*, g2.*
      from p1
      join Linking a2   on p2.personID=a2.personID
      join Groups  g2   on  g2.groupID=a2.groupID
    

    【讨论】:

    • 但这并不能避免两次跨链接表连接的成本。由于对与此特定查询无关的其他数据进行了规范化,因此存在多个链接表。
    • 好吧,您几乎没有选择跨链接表连接两次,因为问题的基本性质涉及两个级别的关联 - 所有属于特定组的人,然后是这些人所属的所有组。您必须以一种或另一种方式在某个时候遍历每一层的链接信息。
    • 我们所说的每个表的行数是多少?您正在处理什么样的性能要求,或有任何特殊问题?起始组是静态的,还是会改变?
    【解决方案3】:

    我想我会先建立您想要为其提取记录的人员列表,然后使用它来查询这些人员的所有组。这将适用于添加了适当连接的任意数量的链接表:

    with persons_wanted as
    (
         --figure out which people are in a group you want to include
         select p.person_key
         from person p
         join link l1
         on p.person_key = l1.person_key
         join groups g
         on l1.group_key = g.group_key
         where g.group name in ('GROUP_I_WANT_PEOPLE_FROM', 'THIS_ONE_TOO')
         group by p.person_key --we only want each person_key once
    )
    --now pull all the groups for the list of people in at least one group we want
    select p.name as person_name, g.name as group_name, ...
    from person p
    join link l1
    on p.person_key = l1.person_key
    join groups g
    on l1.group_key = g.group_key
    where p.person_key in (select person_key from persons_wanted);
    

    【讨论】:

    • 问题是我需要避免遍历那些链接表两次。当我这样做时,查询的成本太高了。
    • 鉴于您要执行的操作,我看不出有任何方法可以避免这种情况。 WITH 子句仍然可能会有所帮助,因为它将您的人员列表移动到临时表中并且只执行一次初始连接。如果做不到这一点,您是否考虑过使用包含人员列表的临时表或物化查询,并针对它运行更简单的查询以提取组列表?
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-04-19
    • 1970-01-01
    • 2013-12-03
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多