【发布时间】:2023-02-21 01:07:47
【问题描述】:
我有 12 列数据,其中包含每个客户 12 个月的余额,如下所示,如何创建一个包含 12 个月余额平均值的附加列(b0 到 b11)。
| customer | b0 | b1 | b2 | b3 | b4 | b5 | b6 | b7 | b8 | b9 | b10 | b11 | avg_bal |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| cust_1 | 20 | 30 | null | null | null | null | null | null | null | null | null | null | 25 |
| cust_2 | 3 | 3 | 3 | 3 | 3 | 3 | 3 | 3 | 3 | 3 | 3 | 3 | 3 |
| cust_3 | null | null | null | null | null | null | null | null | null | 50 | 30 | 10 | 30 |
| cust_4 | null | null | null | null | null | null | null | null | null | null | null | null | null |
我想要一个基于列名的通用代码,谢谢。
【问题讨论】:
-
“具有基于列名的通用代码”是什么意思?您始终可以编写一个函数来获取列列表并对它们进行平均计算。或者您是否想要以某种方式确定哪些列应该被平均的代码?如果是,那么这就是您需要解决的一组完全不同的问题。
标签: apache-spark pyspark apache-spark-sql