【发布时间】:2012-09-12 21:47:05
【问题描述】:
我刚刚完成了一个项目,我将来自 34 个非标准化数据源的数据聚合到一个标准化 SQL Server 2008 数据库中。
唯一的问题是...来自这些数据源的较大文本字段失去了一些保真度,并且现在始终显示 Unicode 控制字符(很多)。
这是我用来从制表符分隔的 *.txt 文件之一导入数据的代码:
BULK INSERT MyTabeNameHere
FROM 'C:\FILE\PATH\HERE\FileNameHere.txt'
WITH
(
FIELDTERMINATOR = '\t',
ROWTERMINATOR = '\n',
FIRSTROW = 2
)
示例数据可能是:
Lorem ipsum ò dolor sit amet
ááá Lorem ipsum dolor sit amet
Lorem ipsum dolor sit amet
Lorem ipsumû dolor sit amet
Lorem ipsum dolor sit aÆmet
我想通过 SQL 函数运行该数据并输出...
期望的输出是:
Lorem ipsum dolor sit amet
Lorem ipsum dolor sit amet
Lorem ipsum dolor sit amet
Lorem ipsum dolor sit amet
Lorem ipsum dolor sit amet
提前致谢!
【问题讨论】:
-
文本文件“失去保真度”?如果您是在发明自己的术语,我们应该如何理解您的意思?
-
Remus 'fidelity' 的同义词是 'accuracy'。 tinyurl.com/bu5yxbb
-
举例说明您的输入和错误输出可能会有所帮助。
-
问题是:文件是损坏还是你用错误的编码读取它?您的术语并没有使它更清楚。
-
检查问题文件?他们是否只使用\n(而不是\r\n)? Bulk Insert 可能会在 \r\n 中变得可爱和替代。试试 char(10)。
标签: sql sql-server sql-server-2008 tsql