【发布时间】:2019-04-05 19:04:40
【问题描述】:
我想在不聚合的情况下在 pyspark 中将我的数据从 4x3 重塑为 2x2。我目前的输出如下:
columns = ['FAULTY', 'value_HIGH', 'count']
vals = [
(1, 0, 141),
(0, 0, 140),
(1, 1, 21),
(0, 1, 12)
]
我想要的是一个列联表,其中第二列是两个新的二进制列(value_HIGH_1、value_HIGH_0)和来自count 列的值 - 含义:
columns = ['FAULTY', 'value_HIGH_1', 'value_HIGH_0']
vals = [
(1, 21, 141),
(0, 12, 140)
]
【问题讨论】:
标签: apache-spark pyspark contingency