【发布时间】:2019-03-09 08:44:09
【问题描述】:
我有 2 张桌子,“transaksi”和“buku”。 “transaksi”大约有 250k 行,buku 大约有 170k 行。两个表都有名为“k999a”的列,并且两个表都没有使用索引。现在我检查这两条语句。
声明 1:
explain select k999a from transaksi where k999a not in (select k999a from buku);
语句 1 输出:
Seq Scan on transaksi (cost=0.00..721109017.46 rows=125426 width=9)
Filter: (NOT (SubPlan 1))
SubPlan 1
-> Materialize (cost=0.00..5321.60 rows=171040 width=8)
-> Seq Scan on buku (cost=0.00..3797.40 rows=171040 width=8)
声明 2:
explain select k999a from transaksi where k999a in (select k999a from buku);
语句 2 输出:
Hash Semi Join (cost=6604.40..22664.82 rows=250853 width=9)
Hash Cond: (transaksi.k999a = buku.k999a)
-> Seq Scan on transaksi (cost=0.00..6356.53 rows=250853 width=9)
-> Hash (cost=3797.40..3797.40 rows=171040 width=8)
-> Seq Scan on buku (cost=0.00..3797.40 rows=171040 width=8)
为什么在NOT IN查询中,postgresql做loop join,使得查询耗时较长?
PS:Windows 10 上的 postgresql 版本 9.6.1
【问题讨论】:
-
为什么没有索引?
-
我不知道为什么 Postgres 在一种情况下选择散列
buku,而在另一种情况下在内存中实现buku。底线是,如果您真的希望这些查询快速运行,您可以在buku表中索引k999a。 -
@TimBiegeleisen 对 buku 的索引有何不同?无论如何,他正在对该表进行全面扫描。
-
我在第一次选择
(select k999a from buku)时说你得到了一个物化表,你需要整个表来检查NOT IN所以在这种情况下索引没有帮助。在第二个中,即使选择看起来也像计划者那样做SEMI JOIN在这种情况下索引会有所帮助 -
@JuanCarlosOropeza 刚刚尝试在 buku.k999a 上使用索引,计划没有区别
标签: postgresql sql-execution-plan explain