【发布时间】:2022-01-21 19:38:53
【问题描述】:
在 pyspark 中应用交叉表后,我有一个 DataFrame,示例如下
| id | A | B | C |
|---|---|---|---|
| cssdsd | 0 | 1 | 0 |
| sdsdsd | 1 | 1 | 1 |
| ssdssd | 1 | 0 | 0 |
| xxxxxx | 0 | 0 | 0 |
我想获取行的百分比,而不是 0,1。 我可以通过使用交叉表函数的 pandas 轻松获得它
pd.crosstab(df.index,df.list, normalize='index')
我怎样才能在 pyspark 中得到这个?
【问题讨论】:
标签: python pandas pyspark data-analysis crosstab