【发布时间】:2020-11-06 11:39:41
【问题描述】:
这是我的代码:
for s, sub_direct in enumerate(os.listdir(path_csv1)):
for i, file in enumerate (glob.glob(path_csv1+"/"+sub_direct+"/*.csv")):
df_spa = spark.read.csv(file,header=True,sep=",")
df_spa = df_spa.withColumn("Batt_id", sub_direct)
#df=df.append(df_spa)
df = df.union(df_spa)
基于sub_direct 的值,我将更新我的专栏df_spa ['Batt_id']
我知道它需要一个列,但在这里我需要将相同的字符串分配给带有文件夹的列的所有值
有可能吗?点燃对我不起作用
【问题讨论】:
标签: python dataframe pyspark jupyter-notebook