【发布时间】:2016-01-13 03:34:24
【问题描述】:
我的用例:
在 mysql 数据库中创建逐日每小时表。我需要每天使用 Sqoop 将它们移动到 HDFS 并使用 Impala 处理 HDFS 数据。
如何编写一个shell脚本或作业,仅将新创建的表数据定期移动到HDFS(现有文件系统)?
假设今天是 2016 年 1 月 3 日,当我今天运行我的工作时,2016 年 1 月 2 日的数据应该像每天一样从 mysql 移动到 HDFS,它应该移动前一天的数据。
每天我都需要在这个 HDFS 集群上运行 Impala 查询并生成报告。
如何使用 Impala 处理这些全部数据并生成报告?
【问题讨论】:
标签: sqoop