【发布时间】:2021-05-12 12:15:26
【问题描述】:
在使用 pyspark 连接时,后缀有什么替代品吗?
要么
当使用spark.sql(query)
数据框有相同的列,我想保留它们各自的数据框名称作为后缀。
下面的代码是我在 python 中所做的。
df = pd.merge(left = df1, right = df2, on= 'col1', how= 'inner', suffixes= ('_df1', '__df2'))
df = pd.merge(left = df, right = df3, on= 'vin_17', how= 'inner', suffixes= ('','__df3'))
df = pd.merge(left = df, right = df4, on= 'vin_17', how= 'inner', suffixes= ('','__df4'))
这就是我在 pyspark 中的做法,但随后所有列名都在更改,我希望重复的列仅具有 __suffix。
df1 = df1.select(*(col(x).alias(x + '__df1') for x in df1.columns))
df2 = df2.select(*(col(x).alias(x + '__df2') for x in df2.columns))
df3 = df3.select(*(col(x).alias(x + '__df3') for x in df3.columns))
【问题讨论】:
标签: python pyspark apache-spark-sql pyspark-dataframes