【发布时间】:2017-03-20 16:22:45
【问题描述】:
我正在研究 ETL 工具(如 Talend)并调查是否可以使用 Apache Nifi。 Nifi 可用于执行以下操作:
- 提取两个放在本地磁盘上的 CSV 文件
- 在公共列上加入 CSV
- 将连接的 CSV 写入磁盘
我尝试在 Nifi 中设置工作,但看不到如何执行两个单独的 CSV 文件的连接。在 Apache Nifi 中是否可以执行此任务?
看起来QueryDNS processor 可用于使用另一个 CSV 文件来丰富一个 CSV 文件,但对于这个用例来说这似乎过于复杂。
这是一个输入 CSV 的示例,需要在 state_id 上加入:
输入文件
customers.csv
id | name | address | state_id
---|------|--------------|---------
1 | John | 10 Blue Lane | 100
2 | Bob | 15 Green St. | 200
states.csv
state_id | state
---------|---------
100 | Alabama
200 | New York
输出文件
输出.csv
id | name | address | state
---|------|--------------|---------
1 | John | 10 Blue Lane | Alabama
2 | Bob | 15 Green St. | New York
【问题讨论】:
标签: etl apache-nifi