【发布时间】:2020-08-28 15:06:29
【问题描述】:
我有一个数据名,想根据列表中的值向其中添加列。
我的值列表将在 3-50 个值之间变化。我是 pySpark 的新手,我正在尝试将这些值作为新列(空)附加到我的 df 中。
我已经看到了如何将 [one column][1] 添加到数据框而不是列表中的多个的推荐代码。
mylist = ['ConformedLeaseRecoveryTypeId', 'ConformedLeaseStatusId', 'ConformedLeaseTypeId', 'ConformedLeaseRecoveryTypeName', 'ConformedLeaseStatusName', 'ConformedLeaseTypeName']
我下面的代码只附加一列。
for new_col in mylist:
new = datasetMatchedDomains.withColumn(new_col,f.lit(0))
new.show()
[1]: https://stackoverflow.com/questions/48164206/pyspark-adding-a-column-from-a-list-of-values-using-a-udf
【问题讨论】:
标签: python dataframe apache-spark pyspark databricks