【问题标题】:How to perform incremental load using sqoop tool如何使用 sqoop 工具执行增量加载
【发布时间】:2017-11-02 14:52:51
【问题描述】:

实际上,我的数据在 Teradata 表中。我已经使用 sqoop-import 命令将该 teradata 表数据 sqoop 到 Hive 中。

但是,我的 teradata 表会每天获取数据。因此,需要将新添加的数据,即 teradata 中的增量数据,sqoop 到 Hive 表中。

谁能给我一些解决方案来实现这个...

【问题讨论】:

  • 你能详细说明一下吗,你想每天增加 hive 表吗?
  • 您的 Teradata 表中是否有某种插入/更新时间戳?

标签: hive teradata sqoop


【解决方案1】:

如果您的表中有任何类似于 row-id/timestamp 的列,那么您可以使用:

--incremental [mode] --last-value [value] --check-column [col]

如果您为此保存了作业,则可以跳过--last-value,因为它将自动维护。

--incremental [mode] 有两种模式。 lastmodifiedappend,您可以根据自己的需要使用任何一种。

【讨论】:

  • ...并确保非常仔细地阅读 Sqoop 指南第 12 至 14 章 sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html#_saved_jobs >> 并思考这句话:“默认情况下,职位描述保存到私人存储在$HOME/.sqoop/" 中的存储库(即在特定节点的本地磁盘上)"您可以将 Sqoop 配置为使用共享元存储..."
猜你喜欢
  • 2017-06-10
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2015-04-22
  • 1970-01-01
  • 1970-01-01
  • 2020-05-14
  • 1970-01-01
相关资源
最近更新 更多