【发布时间】:2018-05-31 21:36:05
【问题描述】:
我的问题是,我有一个包含 500k 行的 Oracle 表。我设置 sqoop 将其作为 parquet 文件导入 HDFS。我将 --num-partition 参数设置为 32,我得到了 32 个 parquet 文件,但是其中一个是 28 MB 大,其他只有 2-3 KB。
这是我的 sqoop 命令:
bin/sqoop import --connect <JDBC> --username <USER> --password <PASSWD> --table <TABLE> --target-dir <TARGET_DIR> -m32 --as-parquetfile --delete-target-dir --outdir <DIR>
我的问题是,这个文件大小可能是什么原因?
【问题讨论】: