【发布时间】:2021-11-15 20:42:27
【问题描述】:
我已经使用 pyspark 编程使用 sql 查询将数据从暂存中插入到主表中。但是,问题是我插入了多个表。因此,为了实现并行性,必须执行什么而不是使用线程。
spark.sql("INSERT INTO Cls.tbl1 (Contract, Name)
SELECT s.Contract, s.Name
FROM tbl1 AS s LEFT JOIN Cls.tbl1 AS c
ON s.Contract = c.Contract AND s.Adj = c.Adj
WHERE c.Contract IS NULL")
spark.sql("INSERT INTO Cls.tbl2 (Contract, Name)
SELECT s.Contract, s.Name
FROM tbl2 AS s LEFT JOIN Cls.tbl2 AS c
ON s.Contract = c.Contract AND s.Adj = c.Adj
WHERE c.Contract IS NULL")
我们必须像上面一样执行多个插入语句,并且我们希望在通过 spark 运行时实现并行性。
【问题讨论】:
标签: python hadoop pyspark hive parallel-processing