【发布时间】:2022-08-19 01:05:50
【问题描述】:
如果我的数据的源和目标是同一个数据库,有人可以帮我理解为什么我们需要使用 PySpark 或 SprakSQL 等吗?
例如,假设我需要从表 X 和 Y 将数据加载到 Postgres DB 中的表 X。在 Postgres 中而不是使用 Spark SQL 或 PySpark 等不是更简单、更快捷吗?
如果数据来自多个来源,我了解对这些解决方案的需求,但如果来自同一来源,我是否需要使用 PySpark?
-
是的你是对的。您不必使用 Spark。
-
使用 pyspark 进行大量转换,因为 spark 使其具有分布式和可扩展性。数据加载最好在数据库本身
-
你说的对。这样做是没有意义的,即使纯粹来自数据往返。只有在 Spark/Python/Dataframes 中比 SQL 更有效的复杂文本转换时,您才会使用 spark。请记住,我们拥有数十年的成功数据工程,而这些工程仅在数据库中构建。
-
谢谢大家的反馈。如果源和目标不同,我想我会使用胶水 pyspark。否则,我将使用带有 jdbc 连接的胶水 python,并让一个会话完成任务而不将数据带入数据帧。
标签: postgresql apache-spark pyspark apache-spark-sql