【发布时间】:2020-06-01 18:00:45
【问题描述】:
在我使用 pyspark 从 Databricks 笔记本加载数据后,我想将 alter table 命令传递给我的 PostgreSQL 数据库。我知道我可以使用spark.read.jdbc 传递查询,但在这种情况下,我想在数据加载后添加一个唯一约束。目的是通过减少创建唯一索引的时间来加快将数据加载到数据库中的过程。
【问题讨论】:
标签: postgresql jdbc pyspark databricks
在我使用 pyspark 从 Databricks 笔记本加载数据后,我想将 alter table 命令传递给我的 PostgreSQL 数据库。我知道我可以使用spark.read.jdbc 传递查询,但在这种情况下,我想在数据加载后添加一个唯一约束。目的是通过减少创建唯一索引的时间来加快将数据加载到数据库中的过程。
【问题讨论】:
标签: postgresql jdbc pyspark databricks
Spark 是一个数据处理框架,因此它的 API 主要用于数据源的读写操作。在您的情况下,您需要执行一些 DDL 语句,而 Spark 不应该执行此类操作。
更好的选择是在 spark sql 中处理数据后保持 DDL 操作分开。您可以在此处再添加一个 PostgreSQL 作业来执行此类操作。
【讨论】: