【发布时间】:2015-07-23 21:43:57
【问题描述】:
在使用 LEFT OUTER JOIN 并尝试在 Postgres 的右表中使用列时,我遇到了严重的性能问题。我有一个用户表和一个包含 online_users 的表,其中列出了我网站中在线的用户 ID。两个表在用户 ID 中都有索引。我需要在 users 表上运行一个 select 并列出首先在线的用户,然后是不在线的用户。所以我的选择是:
SELECT *
FROM users
LEFT JOIN online_users ON (users.id = online_users.usr_id)
ORDER BY online_users.online_date
我在users.id、online_users.usr_id 和online_users.online_date 上有索引,但由于某种原因,当我在查询上运行ANALYZE 时,Postgres 和完整扫描不使用online_users.online_date 的索引破坏查询的性能。
有没有办法在不改变表结构的情况下优化这个查询(这些表是复制的,所以改变结构需要对我们的项目进行重大重构)。
Postgre 版本是 9.3
下面是解释分析:
QUERY PLAN
------------------------------------------------------------------------------------------------------------------------------------
Sort (cost=2589440.94..2595456.84 rows=2406361 width=506) (actual time=18635.686..25775.334 rows=2239030 loops=1)
Sort Key: usuarios_online.datamessenger
Sort Method: external merge Disk: 512424kB
-> Hash Left Join (cost=219.73..130113.66 rows=2406361 width=506) (actual time=0.723..12388.266 rows=2239030 loops=1)
Hash Cond: (usuarios.id = usuarios_online.id_usr)
-> Seq Scan on usuarios (cost=0.00..108832.61 rows=2406361 width=494) (actual time=0.009..7328.191 rows=2238984 loops=1)
-> Hash (cost=212.66..212.66 rows=566 width=12) (actual time=0.704..0.704 rows=572 loops=1)
Buckets: 1024 Batches: 1 Memory Usage: 27kB
-> Seq Scan on usuarios_online (cost=0.00..212.66 rows=566 width=12) (actual time=0.079..0.555 rows=572 loops=1)
Total runtime: 28519.611 ms
(10 rows)
【问题讨论】:
-
请发布您的
EXPLAIN ANALYZE的完整输出(点击edit 并将其添加到问题中)。 -
(these tables are replicated, so changing the structure will require a major refactoring of our project).数据模型设计问题也是真正的问题。如果它是错误的:改变它。现在。或者更好:昨天。 -
请参考[postgresql-performance]标签信息中的性能查询说明。
-
@IMSoP - 我添加了 EXPLAIN ANALYZE 输出。谢谢
标签: sql postgresql join sql-order-by postgresql-performance