【发布时间】:2019-05-20 16:24:49
【问题描述】:
我正在尝试使用 Flink 流来使用 Kafka 主题消息并(定期)创建将保存在 s3 上的 parquet 文件。
有没有办法使用批量格式的流式文件接收器将创建的部分文件名(或添加后缀/前缀)更改为比 part-0-0 或 part-1-3 更独特?
StreamingFileSink<> sink = StreamingFileSink.forBulkFormat(new Path("s3://test-bucket/"), ParquetAvroFactory.getParquetWriter(schema, CompressionCodec.UNCOMPRESSED.name()))
.withBucketAssigner(new PartitionBucketAssigner(partitionColumns))
.build();
【问题讨论】:
-
您对
ParquetAvroFactory的实施情况如何? -
你找到解决方案了吗?我正在寻找相同的内容以及如何避免在使用检查点重新启动我的应用程序时覆盖我在 s3 中的文件?
-
如果您从检查点重新启动,则应该没有问题,因为该文件将包含检查点序列号的后缀。无论如何,Flink 在 1.10 版本中会有零件文件名的解决方案
标签: java apache-flink avro parquet