【发布时间】:2014-02-25 08:48:32
【问题描述】:
在我的 POC 中,我正在尝试使用 pig 脚本实现 ETL 数据流(星型模式),众所周知,在加载到事实表之前,我想加载维度。在维度中,我只需要从源(csv 文件)加载新记录,我的意思是维度(sql server)中不存在的记录。 pig 中的所有连接(倾斜、复制和合并连接)都在尝试匹配现有记录并仅生成匹配的记录。您能告诉我如何将不匹配的记录作为输出以加载到我的维度中吗?
谢谢 塞尔瓦姆
【问题讨论】:
标签: hadoop hive apache-pig sqoop