【发布时间】:2014-09-13 13:53:36
【问题描述】:
我的任务是开发一种将具有 100 万行或更多行的文本文件导入表格的方法。表中的每一行都是 856 字节,分成大约 150 个数据“列”。我正在使用 SQL Server 2012 标准版。与 INSERT 相关的活动是数据库上的唯一活动。我已经构建了一个执行以下操作的存储过程:
GET LIST OF UNIMPORTED DATA FILES IN A SPECIFIC DIRECTORY
LOOP THROUGH LIST OF FILES
BULK INSERT INDIVIDUAL FILE DATA INTO (DISK-BASED) TEMP TABLE
LOOP THROUGH RECORD-LEVEL DATA IN TEMP TABLE
PARSE/WRITE RECORD-LEVEL DATA TO DETAILRECORD TABLE
IF ALL RECORDS FOR A GIVEN FILE ARE SUCCESSFULLY WRITTEN TO THE DETAIL RECORD TABLE
THEN
MOVE FILE TO IMPORTED_FILES DIRECTORY
WRITE SUCESS RECORD TO IMPORTLOG TABLE
ELSE
WRITE FAIL RECORD TO IMPORTLOG TABLE
MOVE ON TO NEXT FILE
将原始文本文件批量插入到 TEMP TABLE 中的速度足够快,不到 1 分钟。但是,我需要解析该原始数据并将数据放入其目标表中。需要明确的是,这意味着,例如,来自行位置 1-10 的数据应该写入目标表中,11-13 应该写入目标表中,等等。我正在使用 WHILE 循环来执行此操作而不是 CURSOR 并遍历 100 万行中的每一行,然后将原始数据作为参数传递给另一个存储过程,然后解析原始数据并插入到目标表中。我只是通过使用 SUBSTRING 函数来解析原始数据,即 SUBSTRING(@rawdata,1,10)。 正如我所提到的,每行中大约有 150 个字段。然而,解析/写入步骤的性能很糟糕。导入 170K 行需要 10 个小时。
目标表上没有聚集索引。恢复模式设置为简单。我启用了“即时文件初始化”。
我正在考虑可能使用 SSIS,但 1) 我怀疑性能可能不会快多少,并且 2) 在 SSIS 中进行故障排除似乎更麻烦。
寻找我忽略的想法、绝妙的想法和明显的建议。
编辑(在 WHILE 循环中添加代码):
WHILE @RecordCounter <= @FileRecordCount
BEGIN
SELECT @Record = record FROM CDR.tempFile WHERE id = @RecordCounter
EXEC [CDR].[usp_ImportCDRData_Record] @pRecord = @Record, @pCarrier = @carrier, @pLogid = @ImportLogID
SET @RecordCounter = @RecordCounter + 1
END
--Inside [CDR].[usp_ImportCDRData_Record]
INSERT INTO dbo.DetailRecord
(
LOGID ,
ACCOUNTNUMBER ,
CORPID ,
SERVICELOCATION ,
NETWORKINDICATOR ,
...
)
VALUES
(
@pLogID,
SUBSTRING(@pRecord, 1,10), -- ACCOUNTNUMBER
SUBSTRING(@pRecord, 11,8), -- CORPID
SUBSTRING(@pRecord, 19,8), -- SERVICELOCATION
SUBSTRING(@pRecord, 27,1), -- NETWORKINDICATOR
...
)
【问题讨论】:
-
这似乎很适合 ETL 工具,而不是尝试完全在 T-SQL 中完成。我没有使用过 SSIS,但它在 Talend 中非常简单。
-
CLR 是您复杂拆分的一种可能解决方案。您是否有理由循环执行任务?
-
当需要一次解析 1 行并插入目标表时,除了循环之外,我还有哪些其他选项?而且,CLR 不是我的专业领域。
-
我认为 SSIS 会快得多,因为在应用程序代码中解析比在 T-SQL 中更有效。我希望 SSIS 可以在几分钟(或几秒钟)内导入 17 万条记录,而不是几小时。
标签: sql sql-server database transactions bulkinsert