【发布时间】:2023-03-08 15:34:01
【问题描述】:
我正在尝试将 900 个文件中的 130GB 数据从 S3 导出到 Aurora/MySql RDS。
我有 10r4.4xlarge 配置的 10 个节点集群。
极光在上
Aurora : db.r3.2xlarge 8 CPU, 61 GB RAM)
另外,当我运行我的 Sqoop 命令时,我可以看到 917 个映射器被启动。 但是导出还是很慢很慢。加载所有数据需要2个多小时。
这是我正在尝试执行的 Sqoop 命令。
sqoop export \
--connect jdbc:mysql://a205067-pppp-ec2.abcd.us-east-1.rds.amazonaws.com/tprdb \
--username user \
--password Welcome12345 \
--table UniverseMaster \
--export-dir s3://205067-pppp-latest-new/output/processing/NextIteration/ \
--fields-terminated-by '|' \
--num-mappers 1000 \
--direct \
-- --default-character-set=latin1
有什么方法可以改进 Sqoop Export 吗? 我尝试使用每个事务的记录,但结果仍然相同。
请建议..
【问题讨论】:
-
你能优化这个吗?如果是这样,您能分享一下方法吗?
标签: mysql sqoop hadoop2 amazon-emr amazon-aurora