我想不到,我有一个 50% 的解决方案给你。
问题
SSIS 真的关心元数据,因此元数据的变化往往会导致异常。从这个意义上说,DTS 要宽容得多。对一致元数据的强烈需求使得使用平面文件源很麻烦。
基于查询的解决方案
如果问题出在组件上,我们就不要使用它。我喜欢这种方法的地方在于,从概念上讲,它与查询表相同——列的顺序无关紧要,额外列的存在也无关紧要。
变量
我创建了 3 个变量,均为字符串类型:CurrentFileName、InputFolder 和 Query。
- InputFolder 硬连线到源文件夹。在我的例子中,它是
C:\ssisdata\Kipreal
- CurrentFileName 是文件的名称。在设计时,它是
input5columns.csv,但在运行时会改变。
- 查询是一个表达式
"SELECT col1, col2, col3, col4, col5 FROM " + @[User::CurrentFilename]
连接管理器
使用JET OLEDB driver 建立与输入文件的连接。按照链接文章中的说明创建后,我将其重命名为 FileOLEDB 并在 "Data Source=" + @[User::InputFolder] + ";Provider=Microsoft.Jet.OLEDB.4.0;Extended Properties=\"text;HDR=Yes;FMT=CSVDelimited;\";" 的 ConnectionManager 上设置表达式
控制流程
我的控制流看起来像嵌套在 Foreach 文件枚举器中的数据流任务
Foreach 文件枚举器
我的 Foreach 文件枚举器配置为对文件进行操作。我在@[User::InputFolder] 的目录上放置了一个表达式。请注意,此时,如果该文件夹的值需要更改,它将在连接管理器和文件枚举器中正确更新。在“检索文件名”中,选择“名称和扩展名”,而不是默认的“完全限定”
在“变量映射”选项卡中,将值分配给我们的 @[User::CurrentFileName] 变量
此时,循环的每次迭代都会改变@[User::Query的值以反映当前文件名。
数据流
这实际上是最简单的部分。使用 OLE DB 源并按照说明进行连接。
使用 FileOLEDB 连接管理器并将数据访问模式更改为“来自变量的 SQL 命令”。在其中使用@[User::Query] 变量,单击“确定”,您就可以开始工作了。
样本数据
我创建了两个示例文件 input5columns.csv 和 input7columns.csv 5 的所有列都在 7 中,但 7 的顺序不同(col2 是序数位置 2 和 6)。我否定了 7 中的所有值,以便清楚地看出正在对哪个文件进行操作。
col1,col3,col2,col5,col4
1,3,2,5,4
1111,3333,2222,5555,4444
11,33,22,55,44
111,333,222,555,444
和
col1,col3,col7,col5,col4,col6,col2
-1111,-3333,-7777,-5555,-4444,-6666,-2222
-111,-333,-777,-555,-444,-666,-222
-1,-3,-7,-5,-4,-6,-2
-11,-33,-77,-55,-44,-666,-222
运行包会得到这两个屏幕截图
缺少什么
我不知道如何告诉基于查询的方法如果列不存在也没关系。如果有唯一键,我想您可以将查询定义为只有 必须 存在的列,然后对文件执行查找以尝试获取 应该 如果该列不存在,则存在并且不会使查找失败。不过很笨拙。