【发布时间】:2019-05-13 14:32:23
【问题描述】:
对于我正在运行的脚本,我有一堆查看 sql 中特定数据集的链式视图(我正在使用 Apache Spark SQL):
%sql
create view view_1 as
select column_1,column_2 from original_data_table
这个逻辑在view_n 中达到顶峰。
但是,我需要执行在 sql 中难以(或不可能)实现的逻辑,特别是 explode 命令:
%python
df_1 = sqlContext.sql("SELECT * from view_n")
df1_exploded=df_1.withColumn("exploded_column", explode(split(df_1f.col_to_explode,',')))
我的问题:
在 sql 表和 pyspark 数据帧之间切换是否存在速度成本?或者,由于 pyspark 数据帧是延迟评估的,它与视图非常相似吗?
有没有更好的方法从 sql 表切换到 pyspark 数据帧?
【问题讨论】:
标签: sql view pyspark apache-spark-sql