带有缓存的 Django 模型计数（）答案

【问题标题】：Django model count() with caching带有缓存的 Django 模型计数（）
【发布时间】：2017-05-14 19:16:13
【问题描述】：

我有一个带有 Apache Prometheus 监控和模型的 Django 应用程序，名为 Sample。

我想监控 Sample.objects.count() 指标并将这个值缓存到具体的时间间隔以避免在数据库中进行昂贵的 COUNT(*) 查询。

从本教程 https://github.com/prometheus/client_python#custom-collectors 我读到我需要编写自定义收集器。

实现这一目标的最佳方法是什么？ django有什么办法可以获取Sample.objects.count()缓存值并在K秒后更新？我也在我的应用程序中使用 Redis。我应该把这个值存储在那里吗？我应该创建单独的线程来更新Sample.objects.count() 缓存值吗？

【问题讨论】：

我认为你的问题对很多用户都很有价值，而不仅仅是那些使用 prometheus 的用户，所以我希望你不要介意编辑。

标签： django database python-2.7 caching prometheus

【解决方案1】：

首先要注意的是，您实际上并不需要缓存 count(*) 查询的结果。

虽然不同的 RDBMS 处理计数操作的方式不同，但对于大型表来说，它们的速度很慢。但它们的一个共同点是，RDBMS 提供了 SELECT COUNT(*) 的替代方法，它实际上是一个缓存结果。好吧。

你还没有提到你的 RDBMS 是什么，所以让我们看看它在 Django 使用的流行的 RDBMS 中是怎样的

mysql

假设您的表上有一个主键并且您正在使用 MyISAM。 SELECT COUNT() 在 mysql 上速度非常快，并且可以很好地扩展。但很有可能你正在使用 Innodb。出于各种原因，这是正确的存储引擎。 Innodb 是事务感知的，不能像 MyISAM 一样处理 COUNT() 并且查询会随着表的增长而变慢。

对有 2M 条记录的表的计数查询耗时 0.2317 秒。以下查询耗时 0.0015 秒

SELECT table_rows FROM information_schema.tables 
WHERE table_name='for_count';

但它报告的值是 1997289 而不是 200 万，但足够接近！

因此您不需要自己的缓存系统。

Sqlite

Sqlite COUNT(*) 查询并不是很慢，但也无法扩展。随着表大小的增长，计数查询的速度变慢。使用类似于 mysql 中使用的表，SELECT COUNT(*) FROM for_count 需要 0.042 秒才能完成。

没有捷径可走。 sqlite_master 表不提供行数。 pragma table_info也没有

你需要自己的系统来缓存SELECT COUNT(*)的结果

Postgresql

尽管是功能最丰富的开源 RDBMS，但 postgresql 不擅长处理 count(*)，它很慢并且不能很好地扩展。也就是说，跟穷亲戚没什么区别！

在 postgreql 上计数查询耗时 0.194 秒。另一方面，以下查询耗时 0.003 秒。

SELECT reltuples FROM pg_class WHERE relname = 'for_count'

您不需要自己的缓存系统。

SQL 服务器

SQL 服务器上的 COUNT 查询平均耗时 0.160 秒，但波动相当大。对于这里讨论的所有数据库，第一个 count(*) 查询相当慢，但随后的查询更快，因为该文件已被操作系统缓存。

我不是 SQL Server 方面的专家，所以在回答这个问题之前，我不知道如何使用架构信息来查找行数。我发现这个Q&A 很有帮助。我试过的其中一个在 0.004 秒内产生了结果

SELECT t.name, s.row_count from sys.tables t
JOIN sys.dm_db_partition_stats s
ON t.object_id = s.object_id
AND t.type_desc = 'USER_TABLE'
AND t.name ='for_count'
AND s.index_id = 1

您不需要自己的缓存系统。

集成到 Django

可以看出，除了 sqlite 之外的所有数据库都提供了内置的“缓存查询计数”，我们不需要自己创建一个。创建一个客户经理来使用此功能是一件简单的事情。

class CustomManager(models.Manager):

    def quick_count(self):
        from django.db import connection
        with connection.cursor() as cursor:
            cursor.execute("""SELECT table_rows FROM information_schema.tables 
    WHERE table_name='for_count'""")

         row = cursor.fetchone()
         return row[0]

class Sample(models.Model):
    ....
    objects = CustomManager()

上面的例子是针对 postgresql 的，但同样的事情也可以用于 mysql 或 sql server，只需将查询更改为上面列出的查询之一。

普罗米修斯

如何将其插入 django prometheus？我把它留作练习。

【讨论】：

"上面的例子是针对 postgresql" - 不，不是 :} postgresql 中没有 information_schema。
哈哈，我的错。但仍然令人困惑的是，您使用的示例与您对 postgresql (reltuples) 的回答不同...
仅供参考，您可以从经理那里检索表名：self.model._meta.db_table
警告！ reltuples 是估计计数而不是精确计数。如果您需要准确的计数，那么您确实需要缓存 wiki.postgresql.org/wiki/…。
@abaldwin99 你完全忘记了缓存也不是 100% 准确

【解决方案2】：

一个自定义收集器，如果它不是太旧，则返回先前的值，否则将是要走的路。我会一直在进行中。

如果您使用的是 MySQL，您可能需要查看 mysqld_exporter 提供的收集器，因为有些表大小应该更便宜。

【讨论】：

为什么 Redis 不是个好主意？什么框架最适合 prometheus 自定义收集器？ Flask 是解决这个问题的好方法吗？有没有办法在 django 应用程序中创建 prometheus 自定义收集器？