【发布时间】:2020-01-13 09:32:25
【问题描述】:
我在PySpark 中使用JDBC URL 下方将data frame 写入Azure SQL Database。但是,我觉得这个写操作的性能并不达标,可以通过设置一些额外的属性来提高。是否有任何变通方法或任何参数可以添加以提高 JDBC 写入性能?
jdbcUrl = "jdbc:sqlserver://server.database.windows.net:1433;databaseName=test;enablePrepareOnFirstPreparedStatementCall=false"
下面是实际的数据帧写入语句。
data_frame.write \
.mode('overwrite') \
.format('jdbc') \
.option('driver', jdbc_driver) \
.option('user', user) \
.option('password', password) \
.option('url', jdbcUrl) \
.option('dbtable', table + '_STG') \
.save()
【问题讨论】:
-
尝试通过将动态分配属性指定为 true 来将作业设置为使用全部资源。
标签: apache-spark jdbc pyspark azure-sql-database