【问题标题】:How to decrease latency for HIVE data ingestion in Apache Flink?如何减少 Apache Flink 中 HIVE 数据摄取的延迟?
【发布时间】:2020-07-24 07:20:03
【问题描述】:

我使用 Apache Flink 直接将数据以 orc 格式写入 HDFS 文件,以便读取 HIVE 故事。 Apache Flink 将在检查点时间后将正在进行的文件转换为完成状态。只有完成的文件对 HIVE 表可见。所以延迟将是检查点时间(在我的情况下是 10 分钟)。如果我们减少检查点时间以减少延迟,那么 Flink 会创建过多的 HDFS 文件。那么如何在不创建太多文件的情况下减少延迟呢?

【问题讨论】:

标签: hadoop hive apache-flink flink-streaming


【解决方案1】:

你唯一能做的就是减少并行度。

【讨论】:

  • 修改滚动策略是什么意思?批量格式只能有OnCheckpointRollingPolicy,它(仅)在每个检查点上滚动。 ci.apache.org/projects/flink/flink-docs-stable/dev/connectors/…
  • StreamExecutionEnvironment.getCheckpointConfig().setMinPauseBetweenCheckpoints(milliseconds) 这行得通吗?
  • setMinPauseBetweenCheckpoints 在检查点需要很长时间才能完成的情况下很有用,并且您希望 Flink 能够花时间运行而不进行检查点。在你的情况下,我看不出它会有什么帮助。
猜你喜欢
  • 2012-08-10
  • 1970-01-01
  • 1970-01-01
  • 2022-07-21
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2013-01-03
相关资源
最近更新 更多