【发布时间】:2017-02-15 09:26:55
【问题描述】:
我正在计划我正在开发的下一代分析系统,我想使用MapReduce/Stream-Processing 平台之一来实现它,例如Flink、Spark Streaming 等。
对于分析,映射器必须具有 DB 访问权限。
所以我最担心的是当一个映射器并行时,来自连接池的连接都将被使用,并且可能有一个映射器无法访问数据库。
我应该如何处理? 这是我需要关心的事情吗?
【问题讨论】:
-
我来自 Spark 背景。我认为您应该避免给您的“映射器”数据库访问权限,这会导致复杂性,并且我认为这不是并行数据分析的最佳方法(至少使用 Spark)。您是否正在研究将数据导入分析管道的最佳方式?
-
您在计算过程中需要数据库访问权限是什么?数据摄取?查找?
-
@ImDarrenG,是的,我正在研究将数据导入分析管道的最佳方法。和@LiMuBei,我需要处理来自许多传感器的大量数据,每个样本都需要使用数据库中的元数据进行处理(可能会不时更改,否则我会在每个映射器中缓存数据库中的所有数据)
标签: apache-spark parallel-processing mapreduce spark-streaming distributed-computing