【发布时间】:2019-03-20 13:09:51
【问题描述】:
我正在使用以下查询来获取 sqoop 中的增量数据-
bin/sqoop job --create JOB_NAME -- import --connect jdbc:oracle:thin:/system@HOST:PORT:ORACLE_SERVICE --username USERNAME --password-file /PASSWORD_FILE.txt --fields-terminated-by ',' --enclosed-by '"' --table SCHEMA.TABLE_NAME --target-dir /TARGET_DIR -m 2 --incremental append --check-column NVL(UPDATE_DATE,INSERT_DATE) --last-value '2019-01-01 00:00:00.000' --split-by PRIMARY_KEY --direct
它在 --check-columns 参数中为多个列抛出错误。
是否有任何方法可以在 --check-column 参数中指定多列?
我要获取数据,如果UPDATE_DATE字段包含空值,那么它应该根据INSERT_DATE列获取数据。
我想从每天更新的表中提取事务记录,如果记录是第一次插入,那么 UPDATED_DATE 列中没有值。这就是为什么我需要在从表中获取数据时比较两列的原因。
对此的任何帮助将不胜感激。
【问题讨论】:
标签: hadoop sqoop data-migration