如何正确索引具有 2500 万行的 SQL Server 表答案

【问题标题】：How to properly index SQL Server table with 25 million rows如何正确索引具有 2500 万行的 SQL Server 表
【发布时间】：2019-03-07 00:10:29
【问题描述】：

我在 SQL Server 2008 R2 中创建了如下表：

CREATE TABLE [dbo].[7And11SidedDiceGame]
(
    [Dice11Sides] [INT] NULL,
    [Dice7Sides] [INT] NULL,
    [WhoWon] [INT] NULL
)

我添加了以下索引：

CREATE NONCLUSTERED INDEX [idxWhoWon] 
ON [dbo].[7And11SidedDiceGame] ([WhoWon] ASC)

然后我创建了一个 WHILE 循环来插入 2500 万个随机生成的行来统计结果以进行统计分析。

一旦我优化了插入函数（在循环之前和之后使用 BEGIN TRAN 和 COMMIT TRAN），While 循环运行良好。但是，分析数据需要很长时间。例如：使用以下语句大约需要 4 分钟来执行：

DECLARE @TotalRows real

SELECT @TotalRows = COUNT(*) 
FROM [test].[dbo].[7And11SidedDiceGame]

PRINT REPLACE(CONVERT(VARCHAR, CAST(@TotalRows AS money), 1),'.00','') 

SELECT 
    WhoWon, COUNT(WhoWon) AS Total,  
    ((COUNT(WhoWon) * 100) / @TotalRows) AS PercentWinner
FROM 
    [test].[dbo].[7And11SidedDiceGame]
GROUP BY 
    WhoWon

我的问题是如何更好地索引表以加快数据检索？还是我需要以不同的方式提取数据？

【问题讨论】：

标签： sql sql-server sql-server-2008-r2

【解决方案1】：

我不认为你可以在这里做很多事情。

查询必须从索引中读取所有 25M 行来计算它们。不过，25M 行并不算多，我希望在现代硬件上花费不到 4 分钟。只需读取 100MB 的数据（好吧，实际上它更多，比如 200MB，但从磁盘上读取 200MB 应该不会需要 4 分钟）。

服务器是否负载过重？这张表有很多插入吗？

您可以通过在表中将WhoWon 列定义为NOT NULL 来进行小幅改进。你真的有 NULL 值吗？

然后在查询中使用COUNT(*) 而不是count(WhoWon)。

如果此查询经常运行，但表中的数据不会经常更改，您可以创建一个索引视图，该视图实质上会具体化/缓存/预计算这些计数，因此将运行此类视图的查询会快得多。

【讨论】：

在尝试了其他一些建议后，将 WhoWon 更改为 NOT NULL 是最大的性能提升。在将列更改为 NOT NULL 之前，我仍然只有 3 分钟多一点。现在，修改列后，我在 3 秒。谢谢！！

【解决方案2】：

您可以通过使用窗口函数来加快速度：

SELECT WhoWon, count(*) AS Total,   
       count(*) * 100.0 / sum(count(*)) over ()  as PercentWinner
FROM [test].[dbo].[7And11SidedDiceGame]
GROUP BY WhoWon;

这不提供单独的print 语句。

为了提高性能，请尝试在(WhoWon) 上建立索引。

【讨论】：

我已经在(WhoWon) 上有一个索引，如下CREATE NONCLUSTERED INDEX [idxWhoWon] ON [dbo].[7And11SidedDiceGame] ([WhoWon] ASC)
这个SELECT 语句比我的要快得多。在没有任何其他修改的情况下，这快了 25%。在将WhoWon 更改为NOT NULL（根据 Vladimir Baranov）之后，您的 select 语句仍然快了 25%。谢谢！