【问题标题】:Assigning the same value to all Pyspark column elements using WithColumn使用 WithColumn 为所有 Pyspark 列元素分配相同的值
【发布时间】:2020-11-06 11:39:41
【问题描述】:

这是我的代码:

for s, sub_direct in enumerate(os.listdir(path_csv1)):  
    for i, file in enumerate (glob.glob(path_csv1+"/"+sub_direct+"/*.csv")):
        df_spa = spark.read.csv(file,header=True,sep=",")
        df_spa = df_spa.withColumn("Batt_id", sub_direct)
        #df=df.append(df_spa)
        df = df.union(df_spa)

基于sub_direct 的值,我将更新我的专栏df_spa ['Batt_id']

我得到了下一个错误,我无法理解如何解决它

我知道它需要一个列,但在这里我需要将相同的字符串分配给带有文件夹的列的所有值

有可能吗?点燃对我不起作用

【问题讨论】:

    标签: python dataframe pyspark jupyter-notebook


    【解决方案1】:

    在传递变量时使用 lit()

    from pyspark.sql import functions as F

    df_spa = df_spa.withColumn("Batt_id", F.lit(sub_direct))

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-11-17
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2014-08-19
      相关资源
      最近更新 更多