【发布时间】:2019-05-29 22:15:57
【问题描述】:
我正在尝试对 PySpark (2.4) Dataframe 进行分组和求和,但不能只一个一个地获取值。
我有以下数据框:
data.groupBy("card_scheme", "failed").count().show()
+----------------+------+------+
| card_Scheme|failed| count|
+----------------+------+------+
| jcb| false| 4|
|american express| false| 22084|
| AMEX| false| 4|
| mastercard| true| 1122|
| visa| true| 1975|
| visa| false|126372|
| CB| false| 6|
| discover| false| 2219|
| maestro| false| 2|
| VISA| false| 13|
| mastercard| false| 40856|
| MASTERCARD| false| 9|
+----------------+------+------+
我正在尝试为每个 card_scheme 计算公式 X = false / (false + true),最后仍然得到一个数据帧。
我期待这样的事情:
| card_scheme | X |
|-------------|---|
| jcb | 1 |
| .... | . |
| visa | 0.9846| (which is 126372 / (126372 + 1975)
| ... | . |
【问题讨论】:
标签: python apache-spark pyspark