【问题标题】:SQL Server: split recordSQL Server:拆分记录
【发布时间】:2012-06-10 02:01:13
【问题描述】:

我有一张这样的桌子:

account   |   check1          |   check2
1         |   100]200]300     |   101]209]305
2         |   401]502         |   404]511
3         |   600             |   601

我想将记录分成如下内容:

account   |   check1     |   check2
1         |   100        |   101
1         |   200        |   209
1         |   300        |   305
2         |   401        |   404
2         |   502        |   511
.         |     .        |    .
.         |     .        |    .
.         |     .        |    .

如何使用仅使用 SQL 服务器来做到这一点?

谢谢,

【问题讨论】:

  • 首先查看拆分字符串函数的实现:stackoverflow.com/questions/314824 这很可能在循环内,您需要第二个循环来获取拆分函数的结果。填充临时表。您可能希望在存储过程中执行此操作。
  • 在旁注中,您似乎正在努力实现规范化。您可能还需要考虑创建另一个名为 CheckNumber 的列,而不是为每个检查设置一列,而是为每个检查使用一行。
  • 这是一个示例。真实数据是如此复杂,并且确实具有不同且合理的名称。在一个字段中存储多个值在我们的数据库中很常见。

标签: sql sql-server cross-apply split-function


【解决方案1】:

首先,您需要一个拆分函数,该函数可以让您确定结果中的顺序。这是一个使用 IDENTITY 列的多语句 TVF

CREATE FUNCTION dbo.SplitStrings
(
    @List       NVARCHAR(MAX),
    @Delimiter  NVARCHAR(255)
)
RETURNS @t TABLE(ID INT IDENTITY(1,1), Item INT)
AS
BEGIN
    INSERT @t(Item) SELECT SUBSTRING(@List, Number, 
        CHARINDEX(@Delimiter, @List + @Delimiter, Number) - Number)
    FROM (SELECT ROW_NUMBER() OVER (ORDER BY [object_id])
        FROM sys.all_objects) AS n(Number)
    WHERE Number <= CONVERT(INT, LEN(@List))
        AND SUBSTRING(@Delimiter + @List, Number, 1) = @Delimiter
    ORDER BY Number OPTION (MAXDOP 1);

    RETURN;
END
GO

(如果您有一个 Numbers 表,您可以使用它来代替子查询,这也将允许您将 WITH SCHEMABINDING 添加到函数的定义中,从而提供潜在的性能优势。)

功能到位后,根据您提供的数据和期望的结果,这里是示例用法:

DECLARE @x TABLE(account INT, check1 NVARCHAR(1000), check2 NVARCHAR(1000));

INSERT @x SELECT 1, '100]200]300','101]209]305'
UNION ALL SELECT 2, '401]502','404]511'
UNION ALL SELECT 3, '600','601'
UNION ALL SELECT 4, '205]104','304]701'; -- I added this sanity check

SELECT account, check1 = s1.Item, check2 = s2.Item
FROM @x AS x
CROSS APPLY dbo.SplitStrings(x.check1, ']') AS s1
CROSS APPLY dbo.SplitStrings(x.check2, ']') AS s2
WHERE s1.ID = s2.ID
ORDER BY account, s1.ID;

结果:

account  check1  check2
-------  ------  ------
1        100     101
1        200     209
1        300     305
2        401     404
2        502     511
3        600     601
4        205     304
4        104     701

这假设您有某种验证/强制措施,即 check1 和 check2 列中的相应值将始终具有相同数量的值。它还假设任何 check1 / check2 值都不会超过大约 7,000 个字符(同样,数字表可以帮助使其更加灵活)。

编辑

在 AndriyM 的 cmets 之后,我想回来重新访问它,主要是为了提供上述功能的一个版本,它可以在不使用多语句 TVF 的情况下工作。这使用了 Andriy 的想法 ROW_NUMBER() 可以使用。

CREATE FUNCTION dbo.SplitStrings
(
    @List       NVARCHAR(MAX),
    @Delimiter  NVARCHAR(255)
)
RETURNS TABLE
AS
    RETURN (SELECT Number = ROW_NUMBER() OVER (ORDER BY Number),
        Item FROM (SELECT Number, Item = LTRIM(RTRIM(SUBSTRING(@List, Number, 
        CHARINDEX(@Delimiter, @List + @Delimiter, Number) - Number)))
    FROM (SELECT ROW_NUMBER() OVER (ORDER BY [object_id])
        FROM sys.all_objects) AS n(Number)
    WHERE Number <= CONVERT(INT, LEN(@List))
        AND SUBSTRING(@Delimiter + @List, Number, 1) = @Delimiter
    ) AS y);
GO

【讨论】:

  • 您的 SplitStrings 事情是一次性提取和插入数据,这意味着您可以轻松地将其重写为内联 TVF,但您选择了多语句。你能解释一下为什么吗? (我的意思是,如果这不仅仅是一个武断的决定。)我问这个是因为最近我一直听说内联 TVF 通常应该比多语句 TVF 更受欢迎(当然前者是可能的,这我相信这里就是这种情况)。
  • @AndriyM 你能展示一个不使用 IDENTITY 列但可以保证结果顺序的内联 TVF 吗?外部查询需要某种方式来连接 100 到 101、200 到 209 等。我认为它可以作为内联 TVF 和“工作”来完成,但我认为你不能保证输出顺序(这就是我添加的原因字符串中的数字都不是升序排列的行)。我很高兴被证明是错误的,但这需要的不仅仅是评论。 :-)(例如,如果你有一个更好的答案......)
  • 我错过了 IDENTITY 位,抱歉。不过,我认为,您可以将其替换为带有ROW_NUMBER() OVER (ORDER BY Number) AS ID 的外部选择。但我不知道这样会不会更好。无论如何,我已经得到了我的问题的答案,谢谢。 :)
  • @AndriyM 因为我不得不为不同的问题回答类似的问题,所以我更新了答案以包含内联 TVF 版本。谢谢你让我诚实。
【解决方案2】:

@Aaron Bertrand 对于第二列“check2”中具有空值的记录,如下所示:

Account | Check1      | Check2

001     | 100]200     | ]

002     | 300]400     | Null

003     | 500]600]700 | ]]

您的函数不会像这样返回值:

Account | Check1      | Check2

001     | 100         | 

001     | 200         | 

002     | 300         | Null

002     | 400         | Null

003     | 500         |

003     | 600         | 

003     | 700         |

如何改进你的函数来处理最后一个分隔符后的空值或空字符串?

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-11-03
    • 1970-01-01
    • 2011-01-31
    相关资源
    最近更新 更多