【发布时间】:2020-04-27 13:05:50
【问题描述】:
我有一个数据流组件,用于监视文件夹中的新文件。除了发出新文件之外,如果任何现有文件也被修改,我希望它发出。有没有办法做到这一点?
PCollection<FileIO.ReadableFile> tfConfigYamls = pipeline.apply(
"ReadConfigYamls",
FileIO.match()
.filepattern("gs://folder/*.yml")
.continuously(Duration.standardMinutes(2), never()))
.apply(FileIO.readMatches());
如果我在文件夹中放置一个新文件,我的数据流会发出这些更改。但是,如果我修改现有文件,则不会。我应该怎么做才能让 FileIO.match 监视文件修改?
【问题讨论】:
-
我不确定是否跟踪修改,仅跟踪新文件。 beam.apache.org/releases/javadoc/2.3.0/index.html?org/apache/…
-
你总是可以实现一个额外的逻辑层来检查文件的任何散列是否发生变化,这可能会触发进一步的分析
标签: google-cloud-platform apache-beam dataflow