【问题标题】:Indirect load in InformaticaInformatica 中的间接加载
【发布时间】:2025-11-25 10:00:02
【问题描述】:

informatica 中的间接加载如何在内部工作。它是整理所有数据然后处理数据还是一次处理一个文件?如果我有跨越多个文件的重复项,我的映射中的重复删除逻辑是否会删除重复项,或者我是否必须使用联合转换合并文件,然后在重复删除逻辑中处理数据?

【问题讨论】:

    标签: etl informatica-powercenter flatfilesource


    【解决方案1】:

    据我所知,Informatica 会像处理单个文件一样处理数据。所以是的,它应该删除文件中的重复项

    【讨论】:

      【解决方案2】:

      只要您的管道在您实际过滤掉重复项之前有一个活动转换(即排序器),那么所有记录都会在移动到过滤器之前到达活动转换,这件事将没有实际意义

      【讨论】:

      • 不相关,但分拣机不会破坏任何东西 :)
      【解决方案3】:

      Informatica 像读取单个文件一样读取流。就像您使用通配符对文件名执行 cat 一样,例如。如果有两个文件f1.txt 里面有一个testlineAf2.txt 里面有一个testlineB,并且你运行一个cat f*.txt 命令,你应该得到:

      testlineA
      testlineB
      

      就像它来自一个文件一样。

      【讨论】:

      • 正确,请注意,如果您启用了特殊端口,则可以使用各个文件的文件名。如果您将文件名添加到目标数据库以增加可追溯性,这将非常有用