【发布时间】:2016-09-22 08:10:29
【问题描述】:
我有以下 Spark 数据框:
agent_id|payment_amount|
+--------+--------------+
| a| 1000|
| b| 1100|
| a| 1100|
| a| 1200|
| b| 1200|
| b| 1250|
| a| 10000|
| b| 9000|
+--------+--------------+
我的愿望输出将类似于
agen_id 95_quantile
a whatever is 95 quantile for agent a payments
b whatever is 95 quantile for agent b payments
对于每组agent_id我需要计算0.95分位数,我采取以下方法:
test_df.groupby('agent_id').approxQuantile('payment_amount',0.95)
但我出现以下错误:
'GroupedData' object has no attribute 'approxQuantile'
我需要在新列中添加 0.95 分位数(百分位数),以便稍后用于过滤目的
我使用的是 Spark 2.0.0
【问题讨论】:
-
约分位数在 spark 版本 2 下不可用
标签: apache-spark dataframe pyspark apache-spark-sql