【发布时间】:2018-06-07 23:14:10
【问题描述】:
我想知道,如果我的查询返回数百万行,JdbcIO 将如何并行执行查询。 我已经提到了https://issues.apache.org/jira/browse/BEAM-2803 和相关的拉取请求。完全没看懂。
ReadAll expand 方法使用ParDo。因此,它会创建到数据库的多个连接以并行读取数据吗?如果我限制可以创建到数据源中数据库的连接数,它会坚持连接限制吗?
谁能帮我理解JdbcIO 会如何处理?我正在使用2.2.0
更新:
.apply(
ParDo.of(
new ReadFn<>(
getDataSourceConfiguration(),
getQuery(),
getParameterSetter(),
getRowMapper())))
上面的代码显示 ReadFn 是与 ParDo 一起应用的。我认为,ReadFn 将并行运行。如果我的假设是正确的,我将如何使用readAll() 方法从我一次只能建立有限数量的连接的数据库中读取?
谢谢 巴鲁
【问题讨论】:
标签: google-cloud-dataflow apache-beam apache-beam-io