【发布时间】:2021-12-03 20:15:55
【问题描述】:
我正在尝试将数据帧写入 MySql DB 并使用 Apache Spark 2.3.1。它有 20K 到 30K 行从 mySql 读取,并用 20 个分区进行分区。我先过滤数据框,然后尝试将过滤后的结果集写入mysql DB。
但是写操作变得太慢了。不过滤 df 写入操作按预期的速度和性能执行。有人可以帮忙吗?
我的代码:
dataFrame = spark.read.format('jdbc').option(...).load()
//performing some operations and adding new column "total" in data frame
filteredDF = dataFrame.filter(dataFrame.total >= 5000)
//no_of_partitions is 20
filteredDF.write.format('jdbc').options().save()
谢谢!
【问题讨论】:
标签: dataframe apache-spark pyspark apache-spark-sql export