使用 WithColumn 为所有 Pyspark 列元素分配相同的值答案

【问题标题】：Assigning the same value to all Pyspark column elements using WithColumn使用 WithColumn 为所有 Pyspark 列元素分配相同的值
【发布时间】：2020-11-06 11:39:41
【问题描述】：

这是我的代码：

for s, sub_direct in enumerate(os.listdir(path_csv1)):  
    for i, file in enumerate (glob.glob(path_csv1+"/"+sub_direct+"/*.csv")):
        df_spa = spark.read.csv(file,header=True,sep=",")
        df_spa = df_spa.withColumn("Batt_id", sub_direct)
        #df=df.append(df_spa)
        df = df.union(df_spa)

基于sub_direct 的值，我将更新我的专栏df_spa ['Batt_id']

我得到了下一个错误，我无法理解如何解决它

我知道它需要一个列，但在这里我需要将相同的字符串分配给带有文件夹的列的所有值

有可能吗？点燃对我不起作用

【问题讨论】：

标签： python dataframe pyspark jupyter-notebook

【解决方案1】：

在传递变量时使用 lit()

from pyspark.sql import functions as F

df_spa = df_spa.withColumn("Batt_id", F.lit(sub_direct))

【讨论】：