【发布时间】:2018-07-16 03:52:54
【问题描述】:
我有大量数据并将其从 teradata 导入到 hdfs。这样做时,通常假脱机空间不足,因此作业会失败。有什么解决办法吗?可以根据数据大小动态分配假脱机空间吗?或者我们可以将 sqoop import 中的数据加载到临时缓冲区中,然后写入 hdfs 吗?
【问题讨论】:
-
增加 sqoop 中的映射器以获得良好的#splits,这可能会通过增加映射器和在 split-by 中使用索引字段来帮助您可以增加很多优势。这是我关于如何利用拆分和映射器组合的答案:stackoverflow.com/questions/48556141/…