postgresql 查询性能增强答案

【问题标题】：postgresql query performance enhancementpostgresql 查询性能增强
【发布时间】：2017-08-23 18:04:15
【问题描述】：

我正在努力争取人气最高的一排。按受欢迎程度下降排序会显着降低查询速度。有没有更好的方法来优化这个查询？

Postgresql - 9.5

    ```explain analyse SELECT  v.cosmo_id,
            v.resource_id, k.gid, k.popularity,v.cropinfo_id
            FROM rmsg.verifications V INNER JOIN rmip.resourceinfo R ON
            (R.id=V.resource_id AND R.source_id=54) INNER JOIN rmpp.kgidinfo K ON 
            (K.cosmo_id=V.cosmo_id) WHERE V.status=1 AND 
            v.crop_Status=1 AND V.locked_time isnull ORDER BY k.popularity 
            desc, (v.cosmo_id,
            v.resource_id, v.cropinfo_id) LIMIT 1;```


        QUERY PLAN                                                                                

        Limit  (cost=470399.99..470399.99 rows=1 width=31) (actual time=19655.552..19655.553 rows=1 loops=1)
        Sort  (cost=470399.99..470434.80 rows=13923 width=31) (actual time=19655.549..19655.549 rows=1 loops=1)
            Sort Key: k.popularity DESC, (ROW(v.cosmo_id, v.resource_id, v.cropinfo_id))
            Sort Method: top-N heapsort  Memory: 25kB
             ->  Nested Loop  (cost=19053.91..470330.37 rows=13923 width=31) (actual time=58.365..19627.405 rows=23006 loops=1)
                   ->  Hash Join  (cost=19053.48..459008.74 rows=13188 width=16) (actual time=58.275..19268.339 rows=19165 loops=1)
                         Hash Cond: (v.resource_id = r.id)
                         ->  Seq Scan on verifications v  (cost=0.00..409876.92 rows=7985725 width=16) (actual time=0.035..11097.163 rows=9908140 loops=1)
                               Filter: ((locked_time IS NULL) AND (status = 1) AND (crop_status = 1))
                               Rows Removed by Filter: 1126121
                         ->  Hash  (cost=18984.23..18984.23 rows=5540 width=4) (actual time=57.101..57.101 rows=5186 loops=1)
                               Buckets: 8192  Batches: 1  Memory Usage: 247kB
                               ->  Bitmap Heap Scan on resourceinfo r  (cost=175.37..18984.23 rows=5540 width=4) (actual time=2.827..51.318 rows=5186 loops=1)
                                     Recheck Cond: (source_id = 54)
                                     Heap Blocks: exact=5907
                                     ->  Bitmap Index Scan on resourceinfo_source_id_key  (cost=0.00..173.98 rows=5540 width=0) (actual time=1.742..1.742 rows=6483 loops=1)
                                           Index Cond: (source_id = 54)
        Index Scan using kgidinfo_cosmo_id_idx on kgidinfo k  (cost=0.43..0.85 rows=1 width=23) (actual time=0.013..0.014 rows=1 loops=19165)
                         Index Cond: (cosmo_id = v.cosmo_id)
     Planning time: 1.083 ms
     Execution time: 19655.638 ms
    (21 rows)```

【问题讨论】：

请尝试：tatiyants.com/postgres-query-plan-visualization
首先删除多余的括号，尤其是在：(v.cosmo_id, v.resource_id, v.cropinfo_id) Plus：将{表结构、索引、基数、调优}添加到您的问题中
@wildplasser 我去掉了括号，执行时间略有改善，我会尝试添加索引，看看执行时间是否有所改善
尝试添加此索引：在 rmsg.verifications (resource_id, cosmo_id) 上创建索引，其中locked_time 为空且status=1 和crop_status=1；然后分析该表并重试。尝试颠倒 resource_id 和 cosmo_id 看看是否比另一个快。
请注意，这里有一个用于查看解释计划的花花公子资源：explain.depesz.com/s/L2em

标签： sql postgresql performance sql-execution-plan

【解决方案1】：

这是您的查询，通过删除括号进行了简化：

SELECT v.cosmo_id, v.resource_id, k.gid, k.popularity, v.cropinfo_id
FROM rmsg.verifications V INNER JOIN
     rmip.resourceinfo R
     ON R.id = V.resource_id AND R.source_id = 54 INNER JOIN
     rmpp.kgidinfo K
     ON K.cosmo_id = V.cosmo_id
WHERE V.status = 1 AND v.crop_Status = 1 AND
      V.locked_time is null
ORDER BY k.popularity desc, v.cosmo_id, v.resource_id, v.cropinfo_id
LIMIT 1;

对于这个查询，我会考虑verifications(status, crop_status, locked_time, resource_id, cosmo_id, crop_info_id)、resourceinfo(id, source_id) 和kgidinfo(cosmo_id) 上的索引。我没有看到删除ORDER BY 的简单方法。

在查看查询时，我想知道您是否可能在两个表之间存在笛卡尔积问题。

【讨论】：

感谢 Gordon 的提醒！我会看看这是否会导致笛卡尔积问题。
您从连接中获得的行数并不代表笛卡尔积。您最大的时间杀手是 v. 表的 seq 扫描，第二个是连接相当多的匹配行。
@ScottMarlowe 有没有办法避免验证表的 seq 扫描
希望我建议的索引可以解决问题。如果没有，您也许可以在每列上获取单独的查询以组合成位图哈希